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内 容 提 要 





本 书 主要 讲述 了 深度 学 习 中 的 重要 概念 和 技术 , 并 展示 了 如 何 使 用 TensorFlow 实现 
高 级 机 器 学 习 算 法 和 神经 网 络 。 本 书 首先 介绍 了 数据 科学 和 机 器 学 习 中 的 基本 概念 ， 然 
后 讲述 如 何 使 用 TensorFlow 训练 深度 学 习 模型 ， 以 及 如 何 通过 训练 深度 前 馈 神 经 网 络 对 
数字 进行 分 类 ， 如 何 通 过 深度 学 习 架 构 解 决 计算 机 视觉 、 语 言 处 理 、 语 义 分 析 等 方面 的 
实际 问题 ， 最 后 讨论 了 高 级 的 深度 学 习 模型 ， 如 生成 对 抗 网 络 及 其 应 用 。 
pau 
a 


数据 科学 、 机 器 学 习 以 及 深度 学 习 方 面 的 专业 人 士 阅读 。 
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译 者 序 


本 书 的 3 位 译 者 不 








完成 了 对 全 书 的 翻译 。 本 了 

















—, 











j 业 余 时 间 ， 结 合 对 深度 学 习 领 域 的 了 解 ， 经 过 3 个 月 的 努力 ， 

















的 翻译 在 内 容 上 忠于 原文 , 在 表述 上 又 贴近 汉语 的 表达 习惯 ， 


同时 风格 也 尽量 与 原著 保持 一 致 ， 以 求 尽 可 能 地 传达 作者 的 原意 。 在 对 专业 术语 的 翻译 


上 ， 我 们 努力 与 业界 的 使 月 
料 时 ， 不 会 出 现 术语 或 者 名 词 矛盾 的 情况 。 





























初学 者 在 阅读 完 本 


























尽管 已 经 对 深度 学 习 有 J 
































数学 理论 基础 ， 而 是 通过 问题 简 述 、 
深度 学 习 的 算法 。 对 于 缺少 理 i 


























书后 继续 查阅 其 他 学 习 材 





本 书 仍然 让 我 们 耳目 一 新 。 本 














图 书 一 样 ， 本 书 没有 侧 





书 语言 简练 ， 和 现在 流行 的 机 器 学 习 类 





于 揭示 深度 学 习 背 后 的 











噬 括 以 及 代码 ， 证 读者 能 够 尽快 地 理解 并 上 手 
了 必需 的 基础 知识 ， 读 























发 人 员 ， 本 书 提供 







































































度 学 习 任务 。 





















































于 有 志 于 在 深度 学 习 领 域 做 + 
学 习 资 料 ， 去 探索 深度 学 习 背后 的 数学 支撑 。 





者 可 以 学 到 几乎 所 有 的 要 点 来 探索 和 形 
识 却 缺少 实践 开发 经 验 的 读者 ， 本 
































! 解 深度 学 习 是 什么 。 而 对 于 了 解 深度 学 习 理论 知 
提供 了 大 量 的 案例 ， 使 读者 能 够 快速 地 动手 实现 深 

















由 于 书 中 给 出 的 代码 非常 六 
目的 工程 师 来 说 ， 本 书 可 以 称 为 利器 。 同 时 ， 对 于 
本 书 也 不 失 为 调整 自身 代码 风格 并 且 进 一 步 加 深 对 深度 学 习 理 
一 番 成 就 的 读者 ， 在 熟 读 本 书后 ， 寻 
























































本 书 的 内 容 涵盖 了 大 多 数 的 主流 深度 学 习 任 务 ， 包 括 网 


























测 任务 ， 自 然 语言 处 理 














了 几 个 深度 学 习 中 的 经 


度 学 习 的 大 多 数 模型 者 
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的 从 业 人 员 或 多 或 少 者 





























本 书 使 用 的 编程 语言 是 现 大 























F 细 ， 可 以 直接 运行 ， 对 于 急于 将 深度 学 习 应 用 于 实际 项 
那些 对 深度 学 习 有 
4 宝贵 资源 。 当 然 ， 对 
EDGE 7b PESE E RO 





定 了 解 的 读者 ， 


像 识 别 、 目 标 检 


习 任务 等 。 本 书 介绍 
成 网 络 ， 当 下 深 
的 内 容 全 面 ， 不 同 领域 








E 非 常 流行 的 Python, 代码 简单 、 优雅 ， 易于 上 手 ， 深度 


译 者 序 








学 习 框 架 也 是 主流 的 TensorFlow 框架 ， 想 要 进一步 学 习 的 读者 将 会 有 极 多 的 社区 资源 。 
当然 ， 随 着 编程 语言 的 进一步 发 展 ， 我 们 也 非常 期 待 以 后 为 读者 呈现 一 本 基于 其 他 框架 
《如 Pytorch, Caffe 等 ) 的 图 书 。 我 们 也 期 待 以 后 能 够 将 更 多 的 、 更 新 的 学 习 任务 和 模型 
呈现 给 读者 ， 如 深度 强化 学 习 和 注意 力 模 型 。 

感谢 翻译 过 程 中 所 有 帮助 和 指导 过 我 们 的 人 。 由 于 译 者 水 平 有 限 ， 书 中 难免 会 有 下 C 
漏 ， 还 望 读者 不 音 提 出 意见 和 建议 。 
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本 书 将 首先 介绍 机 器 学 习 的 基础 和 如 何 可 视 化 机 器 学 习 的 过 程 , 然后 使 用 一 些 例子 来 
展示 传统 的 机 器 学 习 技 术 ， 最 后 讨论 深度 学 习 。 在 本 书 中 ， 你 会 开始 建立 一 些 机 器 学 习 
模型 ， 这 些 模型 最 后 会 有 助 于 你 学 习 神经 网 络 模型 。 通 过 这 些 ， 


































































































本 书 读者 对 象 











本 书 是 一 本 深度 学 习 方面 的 入 门 书籍 ， 适 合 那 些 想 要 深入 了 解 深 度 学 习 3 


的 一 些 基 础 知识 ， 并 了 解 各 种 以 用 户 友 好 的 方式 支持 深度 学 习 的 工具 。 
开发 人 员 能 够 获得 一 些 深度 学 习 的 实践 经 验 。 读 者 能 够 学 到 几乎 所 有 的 要 点 来 探索 和 理 
解 深 度 学 习 是 什么 ， 并 且 直 接 动 手 实现 一 些 深度 学 习 任 务 。 上 出 
广泛 应 用 的 深度 学 习 框 架 之 一 一 一 TensorFlow。TensorFlow fi 
在 日 益 增长 ， 这 使 得 它 成 为 构建 复杂 深度 学 习 应 用 的 理想 选择 。 




















现 它 的 读者 阅读 。 阅 读本 书 ， 不 要 求 读者 具有 机 器 学 习 、 复 杂 统 计 学 和 线 局 

















的 4 京 知 识 ° 








本 书 结构 





第 1 章 解 释 数据 科学 或 者 机 器 学 习 的 定义 , 即 在 
机 器 从 数据 集中 学 习 知 识 的 能 力 。 例 如 ， 要 编写 一 个 可 以 识别 数字 的 程序 
程序 以 手写 数字 作为 输入 图 像 ， 输 出 该 图 像 所 代表 的 是 0~9 的 哪个 数字 。 
判断 收 到 的 邮件 是 不 是 垃圾 邮件 这 样 的 分 类 任务 也 是 很 困难 的 。 为 了 解决 这 样 的 任 
务 , 数据 科学 家 使 用 一 些 数据 科学 、 机 器 学 习 领 域 的 学 习 方法 和 
些 能 够 区 分 每 个 数字 的 可 解释 特征 来 教会 计算 机 如 何 




































































有 先 没有 被 告知 或 者 纺 











E 够 熟悉 深度 学 习 


























上 外， 本 书 将 会 使 用 目前 最 
E 社 区 的 支持 度 很 高 ， 朝 


























































































































类 问题 也 是 如 此 , 我 们 能 够 通过 特定 的 算法 教会 计生 








j 





[有 具 ， 通 过 给 机 器 一 
自动 识别 数字 。 对 于 垃圾 由 
iL 如 何 判 断 一 封 邮件 是 不 是 垃圾 






























































本 构建 模块 。 

第 3 章 介绍 模型 
很 多 工 
从 现 有 数据 中 提取 有 




















g 件 ， 而 不 是 使 用 传统 的 
第 2 章 讨论 线性 模型 一 -数据 科学 领域 的 基本 学 习 算 法 。 
于 学 习 数据 科学 的 过 程 至 关 重要 ， 因 
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ui 











E Ju 5X XOT SR 






















































































为 它 是 


的 复杂 性 和 评估 方法 。 这 对 构建 成 


可 以 用 来 评估 和 选择 模型 ， 本 章 将 讨论 


写 数 百 条 规则 来 对 收 到 的 





























大 多 数 复杂 学 习 



































些 工 具 ， 


















































论 与 最 优 数量 特征 有 关 的 其 他 工具 ， 


j 信 息 ， 这 些 工具 有 助 于 你 提高 数据 的 价值 。 























样本 /观测 值 ”会 是 一 个 问题 。 




















第 4 章 概 述 使 用 最 广泛 的 深度 学 习 框 架 之 一 一 一 TensorFlow。 它 帮 











高 ， 而 且 在 日 益 ] 


























阐 长 ， 这 对 于 构建 复杂 的 深度 学 习 应 有 








ik Cam 














$5 件 进行 
里 解 线性 模型 如 何 工作 对 
经 网 络 ) 的 基 





分 类 。 





功 的 数据 科学 系统 





> A 
































并 解释 为 什么 “有 大 量 的 特征 却 只 有 





通过 添加 更 
同样 











£1 


性 特征 并 
本 章 也 会 讨 
量 的 训练 
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E 社 


区 的 支持 度 很 



































































































































来 说 是 一 个 很 好 的 选择 。 















































第 5 章 解释 TensorFlow 背后 的 主要 计算 概念 一 一 计算 图 模型 ， 并 演示 如 何 通过 实现 
线性 回归 和 逻辑 回归 模型 让 读者 慢 慢 走 上 正轨 。 

第 6 章 解 释 前 馈 神经 网 络 (Feed-forward Neural Network, FNN), FNN 是 一 种 特殊 
类 型 的 神经 网 络 ， 其 中 神经 元 之 间 的 连接 不 构成 环 。 因 此 ， 它 与 本 书后 续 将 要 研究 的 神 
经 网 络 中 的 其 他 结构 (如 循环 类 型 神经 网 络 ) 不 同 。FNN 是 一 种 广泛 使 用 的 架构 ， 而 且 
它 是 第 一 个 类 型 最 简单 的 神经 网 络 。 本 章 将 会 介绍 一 种 典型 的 FNN 架构 ， 并 且 使 用 





TensorFlow 中 的 库 来 实现 它 。 在 讲 完 了 这 些 概念 之 后 ， 本 章 会 给 出 一 个 数字 分 类 的 实际 
例子 。 例 如 ， 给 定 一 组 包含 手写 数字 的 图 


同 的 类 别 ? 


第 7 章 讨论 数据 科学 中 的 卷 积 神经 网 络 (Convolutional Neural Network, CNN), CNN 
特殊 的 深度 学 习 架 构 , 该 架构 使 用 卷 积 运 入 
CNN 层 连 接 起 来 作为 FNN， 
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Fe 


把 很 多 















































像 ， 如 何 将 这 些 图 

















Z] 














从 输入 

















别 地 ， 生 物 
来 识别 








怎样 工作 的 。 每 个 皮层 神经 元 对 受 
医学 成 像 问题 有 时 会 难 
图 像 中 的 这 些 模式 。 
第 8 章 介 绍 CNN 背后 
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像 分 为 10 ^^ CHI 0 一 9) 不 


像 中 提取 相关 的 可 





























笃 释 特征 。 











同时 通过 这 种 卷 积 运算 来 模拟 人 脑 在 识别 物体 时 是 
限 区 域 空间 (也 称 为 感受 野 ) 中 的 刺激 做 出 
解决 ， 但 在 本 章 中 ， 你 将 可 以 看 到 如 























反应 。 特 
可 使 用 CNN 





的 基础 知识 和 直觉 /动机 ， 并 在 可 用 于 物体 检测 的 最 流行 的 数 


据 集 之 一 上 进行 演示 。 同 样 地 ， 你 将 会 看 到 CNN 前 面 的 一 些 层 如 何 提取 关于 物体 的 一 


些 基 本 特征 ， 而 最 后 的 卷 积 
中 构建 而 来 的 。 








基本 特征 
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层 将 会 提 























取 到 更 多 的 语义 级 特征 ， 这 些 特征 都 是 从 前 几 层 的 


上 一 


= 
nil 




















第 9 章 讨论 迁移 学 习 (Transfer Learning, TL), E F 2] 2e ZU RE PORN 
问题 ， 主 要 涉及 在 解决 特定 任务 时 不 断 获 取 知 识 并 使 用 这 些 已 获得 的 知识 来 解决 另 一 个 
不 同 但 相似 的 任务 。 本 章 将 展示 数据 科学 领域 中 一 种 使 用 TL 的 现代 实践 和 常见 主题 。 
这 里 的 想法 是 在 处 理 具 有 较 小 数据 集 的 领域 时 ， 如 何 从 具有 非常 大 的 数据 集 的 领域 中 来 
获得 帮助 。 最后， 本 章 将 重新 探讨 CIFAR-10 目标 检测 示例 ， 并 尝试 使 用 TL 来 缩短 训练 
时 间 和 减 小 性 能 误差 。 

第 10 章 介 绍 循环 神经 网 络 (Recurrent Neural Network, RNN), RNN 是 一 类 广泛 应 
用 于 自然 语言 处 理 (Natural Language Processing, NLP) 的 深度 学 习 架 构 。 这 套 架 构 使 
我 们 能 够 为 当前 预测 提供 上 下 文 信息 ， 并 且 还 具有 处 理 任何 输入 序列 中 长 期 依赖 性 的 特 
定 架 构 。 本 章 将 会 演示 如 何 构建 一 个 序列 到 序列 的 模型 ， 这 对 于 NLP 中 的 许多 应 用 都 是 
很 有 用 的 。 这 里 将 通过 建立 一 个 字符 级 语言 模型 来 前 述 这 些 概念 ， 并 且 展 示 模 型 如 何 产 
生 和 原始 输入 序列 相似 的 句子 。 

第 11 章 解 释 了 机 器 学 习 是 一 门 主 要 基于 统计 学 和 线性 代数 的 科学 。 由 于 反 疝 传播 算 
法 , 应 用 矩阵 运算 在 大 多 数 机 器 学 习 或 深度 学 习 架 构 中 都 非常 普遍 。 这 也 是 深度 学 习 ( 机 
器 学 习 ) 在 总 体 上 只 以 实数 值 作为 输入 的 主要 原因 。 事 实 上 ， 这 和 很 多 的 应 用 相 了 矛盾 ， 
如 机 器 翻译 、 情 感 分 析 等 ， 它 们 以 文本 作为 输入 。 因 此 ， 为 了 在 这 个 应 用 中 使 用 深度 学 
习 ， 我 们 需要 以 深度 学 习 所 接受 的 方式 进行 处 理 。 本 章 将 会 介绍 表征 学 习 领 域 ， 这 是 一 
种 从 文本 中 学 习 实 值 表示 方式 的 方法 ， 同 时 保留 实际 文本 的 语义 。 例 如 ，love 的 表示 方 
式 应 该 和 adore 的 表示 方式 十 分 接近 ， 因 为 它们 都 会 在 非常 相似 的 语 境 中 使 用 。 

第 12 章 讨 论 了 自然 语言 处 理 中 一 个 热门 和 流行 的 应 用 , 即 所 谓 的 情感 分 析 。 现在 大 

多 数 人 通过 社交 媒体 平台 来 表达 他 们 对 某 事 的 看 法 ， 所 以 对 于 公司 甚至 政府 来 说 ， 利 用 
这 些 海量 文本 来 分 析 用 户 对 某 事 的 满意 度 是 非常 重要 的 。 在 本 章 中 ， 将 使 用 RNN 来 构 
建 一 个 情感 分 析 解 决 方案 。 
13 章 介绍 自 编码 器 网 络 , 它 是 当下 使 用 最 广泛 的 深度 学 习 架 构 之 一 。 它 主要 用 于 
码 任务 的 无 监督 学 习 ， 也 可 以 用 于 通过 学 习 特 定数 据 集 的 编码 或 者 表示 方式 来 降 
章 将 使 用 自 编码 器 展示 如 何 通过 构建 具有 相同 维度 但 噪声 更 小 的 另 一 个 数据 集 ， 
来 对 当前 数据 集 进 行 去 噪 。 为 了 在 实践 中 使 用 这 个 概念 ， 这 里 将 会 从 MNIST 数据 集中 
提取 重要 的 特征 ， 并 尝试 以 此 来 观察 性 能 是 如 何 显著 提高 的 。 

第 14 章 讨 论 生成 对 抗 网 络 (Generative Adversarial Network，GAN)。 这 是 一 种 由 两 
个 彼此 对 抗 的 网 络 〈 因 此 有 了 名 字 中 的 对 抗 ) 组 成 的 深度 神经 网 络 架 构 。2014 Æ, Ian 
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z=% 
nil 








Goodfellow 和 包括 Yoshua Benjio 在 内 的 其 他 研究 人 员 在 蒙特 利 尔 大 学 的 一 篇 论文 〈 见 
arxiv 官网 ) 中 介绍 了 GAN。 提 到 GAN, Facebook 的 AI 研究 总 裁 Yann Lecun 称 对 抗 训 
练 是 机 器 学 习 过 去 10 年 中 最 有 趣 的 想法 。GAN 潜力 巨大 ， 因 为 它 可 以 学 习 模仿 任何 的 
数据 分 布 。 也 就 是 说 ， 在 诸如 图 像 、 音 乐 、 语 言 和 文本 等 任何 领域 可 以 训练 GAN 以 创 
造 与 我 们 类 似 的 世界 。 从 某 种 意义 上 说 ， 它 们 是 机 器 人 艺术 家 ， 它 们 的 输出 〈 见 nytimes 
官网 ) 令 人 印象 深刻 同时 也 使 人 们 受到 鼓舞 。 
第 15 章 指出 我 们 能 够 使 用 GAN 来 实现 非常 多 有 趣 的 应 用 。 本 章 将 展示 GAN 的 另 
个 有 前 景 的 应 用 ， 即 基于 CelebA 数据 库 的 人 脸 生 成 ， 并 且 演 示 如 何 将 GAN 用 于 建立 
那 种 对 于 数据 集 标 记 不 准确 或 者 缺少 标记 的 半 监 督学 习 模 型 。 
附录 A 包括 鱼 类 识别 示例 的 所 有 代码 。 




































































































































































充分 利用 本 书 


e 在 开始 阅读 之 前 ， 告 诉 读者 需要 了 解 的 知识 ， 并 明确 哪些 是 假定 已 知 的 知识 。 


e 在 开始 动手 操作 之 前 ， 阅 读 所 需要 的 所 有 额外 安装 说 明和 相关 信息 。 
























































下 载 示例 代码 文件 


读者 可 以 从 异步 社区 Cwww.epubitcom) 上 下 载 本 书 的 示例 代码 文件 。 


本 书 的 代码 包 也 托管 在 GitHub 网 站 上 面 。 同样 地 , 其 他 丰富 的 图 书 和 视频 中 的 相关 
代码 包 也 可 以 从 GitHub 网 站 获取 。 






































下 载 彩 色 图 像 


我 们 还 提供 了 一 个 PDF 文件 ， 其 中 包含 了 本 书 中 所 使 用 的 截图 /图 的 彩色 图 像 ， 读 
者 可 以 到 异步 社区 中 下 载 。 


本 书 约定 


本 书 中 使 用 了 很 多 约定 版 式 。 
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= 
nil 


代码 块 设置 如 下 。 


html, body, #map { 
height: 100%; 
margin: 0; 
padding: 0 

} 


当 我 们 希望 提醒 读者 注意 代码 块 的 特定 部 分 时 ， 相 关 行 或 条 目 以 粗 体 显示 。 














[default] 

exten => s,1,Dial(Zap/1|30) 
exten => s,2,Voicemail (u100) 
exten => s,102,Voicemail (b100) 


exten => i,1,Voicemail(s0) 


任何 命令 行 输入 或 者 输出 的 写法 如 下 。 





$ mkdir css 


$ cd css 


qp 表示 警告 或 重要 注意 事项 . 


€) 表示 提示 信息 和 技巧 。 
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xxi + 
资源 与 支持 
本 书 由 异步 社区 出 品 ， 社 区 (https://www.epubit.com/) 为 您 提供 相关 资源 和 后 续 
服务 。 























RCE UE 
ABE COREA ACHE, ERK ABO a ESS, wee RT 
界面 ， 按 提示 进行 操作 即 可 。 注 意 ， 为 保证 购书 读者 的 权益 ， 该 操作 会 给 出 相关 提示 
要 求 输入 提取 码 进行 验证 。 
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提交 勘误 
作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ， 但 难免 会 存在 朴 漏 。 欢 迎 您 将 发 
现 的 问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 
当 您 发 现 错误 时 ,请 登录 异步 社区 , 按 书 名 搜索 , 进入 本 书页 面 , h GERNE”, 
输入 勘误 信息 ， 点 击 “ 提 交 ” 按 钮 即 可 。 本 书 的 作者 和 编辑 会 对 您 提交 的 勘误 进行 审核 
确认 并 接受 后 ， 您 将 获 赠 异 步 社区 的 100 积分 。 积 分 可 用 于 在 异步 社区 兑换 优惠 券 、 样 
书 或 奖品 。 









































































































































与 我 们 联系 
我 们 的 联系 邮箱 是 contact@epubit.com.cn. 

如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 发 邮件 给 我 们 ， 并 请 在 邮件 标题 中 注 明 本 书 
书 名 ， 以 便 我 们 更 高 效 地 做 出 反馈 。 
如 果 您 有 兴趣 出 版 图书、 录制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 审 校 等 工作 ， 可 
以 发 邮件 给 我 们 ， 有 意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 提 交 投 稿 (直接 访问 
www.epubit.com/selfpublish/submission 即 可 )。 
如 果 您 是 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 他 图 书 ， 也 
可 以 发 邮件 给 我 们 。 
如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 ， 包 括 对 图 书 全 
部 或 部 分 内 容 的 非 授 权 传 播 ， 请 您 将 怀疑 有 侵权 行为 的 链接 发 邮件 给 我 们 。 您 的 这 一 举 
动 是 对 作者 权益 的 保护 ， 也 是 我 们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 









































































































































































































































关于 异步 社区 和 异步 图 书 

“异步 社区 ”是 人 民 邮 电 出 版 社 旗下 IT 专业 图 书社 区 ， 致力 于 出 版 精品 IT 技术 图 书 
和 相关 学 习 产 品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社区 创办 于 2015 年 8 月 , 提供 大 
精品 IT 技术 图 书 和 电子 书 ,以 及 高 品质 技术 文章 和 视频 课程 。 更 多 详情 请 访问 异步 社 
官网 https://www.epubit.com. 

“异步 图 书 ” 是 由 异步 社区 编辑 团队 策划 出 版 的 精品 T 专业 图 书 的 品牌 ， 依 托 于 人 民 邮 
电 出 版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团队 ， 相 关 图 书 在 封面 上 印 有 异步 图 书 的 
LOGO。 异 步 图 书 的 出 版 领域 包括 软件 开发 、 大 数据 、AI、 测 试 、 前 端 、 网 络 技术 等 。 
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第 1 章 
数据 科学 一 一 鸟 有 眶 全 景 











数据 科学 或 机 器 学 习 是 一 个 使 机 器 能 够 在 不 被 告知 数据 或 编程 的 情况 下 从 数据 集中 
学 习 知 识 的 过 程 。 例 如 ， 编 写 一 个 能 够 将 手写 数字 作为 输入 图 像 并 根据 输入 的 图 像 输 出 
值 为 0 一 9 的 程序 非常 困难 。 这 同样 适用 于 将 收 到 的 电子 邮件 分 为 垃圾 邮件 或 非 垃圾 邮件 
的 任务 。 为 了 解决 这 些 问题 ， 数 据 科学 家 使 用 数据 科学 或 机 器 学 习 领 域 的 学 习 方法 和 工 
有 具 ， 通 过 向 计算 机 提供 一 些 可 以 区 分 一 位 数字 和 另 一 位 数字 的 解释 性 特征 ， 教 会 计算 机 
如 何 自动 识别 数字 。 对 于 垃圾 邮件 / 非 垃 圾 邮件 问题 也 是 如 此 ， 我 们 可 以 通过 特定 的 学 习 
法 教会 计算 机 如 何 区 分 垃圾 邮件 和 非 垃圾 邮件 ， 而 不 是 使 用 正则 表达 式 并 编写 数 百 条 
规则 来 对 收 到 的 电子 邮件 进行 分 类 。 



























































































































































































































































对 于 垃圾 邮件 过 滤 程序 ， 你 可 以 通过 基于 规则 的 方法 对 它 进行 编码 ， 但 它 
不 会 用 于 生产 中 ， 比 如 邮件 服务 器 中 的 程序 。 所 以 建立 一 个 学 习 系 统 是 一 
个 理想 的 解决 方案 。 

















户 可 能 每 天 都 在 使 用 数据 科学 应 用 程序 ， 却 不 知道 它 就 是 数据 科学 应 用 程序 。 例 如 ， 
某 机 构 可 能 使 用 茶 些 系统 来 检测 大 家 发 布 的 信件 的 邮政 编码 ， 以 便 自 动 将 它们 转发 到 正确 
区 域 。 如 果 用 户 使 用 亚马逊 网 站 ， 它 们 通常 会 推荐 用 户 购买 一 些 东 西 ， 亚 马 逊 就 是 通过 了 旬 
用 户 经 常 搜索 或 购买 哪些 东西 做 到 这 一 点 的 。 
建立 一 个 训练 的 机 器 学 习 算法 需要 一 些 基 础 的 历史 数据 样本 ， 从 中 学 习 如 何 区 分 不 
同 的 例子 ， 并 从 这 些 数据 中 了 解 一 些 知识 和 趋势 。 之 后 ， 训 练 算法 可 用 于 对 未 知 数据 ; 
行 预测 。 学 习 算 法 将 使 用 原始 历史 数据 ， 并 将 尝试 从 该 数据 中 了 解 一 些 知识 和 趋势 。 
本 章 将 全 面 介绍 数据 科学 ， 包 括 数据 科学 如 何 像 一 个 黑 盒 子 一 样 工作 ， 以 及 数据 科 
学 家 每 天 面临 的 挑战 。 本 章 具体 讨论 以 下 主题 。 
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第 1 章 数据 科学 一 一 鸟 隔 全 景 





@ 通过 示例 了 解数 据 科 学 。 
e 设计 数据 科学 算法 的 程序 。 
e 开始 学 习 。 

e 实现 鱼 类 识别 /检测 模型 。 
e 不 同 的 学 习 类 型 。 

e 数据 量 和 行业 需求 。 














1.1 通过 示例 了 解数 据 科学 








为 了 说 明 为 特定 数据 构建 学 习 算 法 的 周期 和 挑战 ， 我 们 考虑 一 个 真实 的 例子 。 大 自 
然 保 护 协会 正在 与 其 他 捕 鱼 公司 合作 ， 来 共同 监测 捕捞 活动 并 保护 未 来 的 渔业 。 大 自然 
保护 协会 希望 在 未 来 使 用 摄像 头 来 扩大 这 一 监控 范围 。 但 是 因为 部 署 这 些 摄像 头 所 产生 
的 数据 量 非 常 巨大 ， 而 且 手 动 处 理 的 成 本 非常 高 ， 所 以 大 自然 保护 协会 想 要 开发 一 种 学 
习 算 法 来 自动 检测 不 同 种 类 的 鱼 并 分 类 ， 以 加 速 视频 审查 过 程 。 

1.1 所 示 的 是 保护 协会 部 署 的 摄像 头 所 拍摄 的 图 像样 本 ， 这 些 图 像 将 用 于 构建 
系统 。 


在 这 个 例子 中 ， 我 们 的 目标 是 分 离 不 同 的 物种 ， 包 括 渔船 所 捕获 的 金枪鱼 、 效 鱼 等 。 


作为 一 个 说 明 性 的 例子 ， 把 这 个 问题 限制 在 金枪鱼 和 月 鱼 两 个 物种 〈 见 图 1.2) 中 。 


























































































































图 1.1 大 自然 保护 协会 部 署 的 图 1.2 金枪鱼 类 Co 和 月 鱼 类 ( 右 ) 
爱 像 头 拍摄 到 的 画 






























































在 将 问题 限制 在 仅 包 含 两 种 类 型 的 鱼 之 后 ， 我 们 可 以 从 集合 中 抽取 一 些 随机 图 像 来 
发 现 这 两 种 类 型 之 间 的 一 些 物理 差异 。 主 要 考虑 以 下 物理 差异 。 


























OO 


e KE: 相对 于 月 鱼 ， 金 枪 鱼 更 长 。 
e mE: 月 鱼 比 金枪鱼 宽 。 














1. 通过 示例 了 解数 据 科学 


e 颜色 : 月 鱼 比 金枪鱼 更 红 ， 人 金枪鱼 往往 是 蓝 色 和 白色 等 。 
我 们 可 以 将 这 些 物 理 差异 作为 特征 来 帮助 学 习 算法 (分 类 器 ， 来 区 分 这 两 种 鱼 类 。 














对 象 的 解释 性 特征 是 我 们 在 日 常生 活 中 用 来 区 分 周围 的 物体 的 东西 。 即 使 
是 婴儿 也 可 以 使 用 这 些 解释 性 特征 来 了 解 周 围 环 境 ， 数 据 科学 也 是 如 此 。 

@ 为 了 建立 一 个 可 以 区 分 不 同 对 象 (例如 鱼 类 ) 的 学 习 模 型 ， 我 们 需要 给 它 
一 些 解释 性 特征 来 学 习 ( 例如 鱼 的 长 度 ). 为 了 使 模型 更 加 确定 并 减少 错误 ， 
我 们 可 以 在 一 定 程度 上 增加 对 象 的 解释 性 特征 。 
























































因为 这 两 种 鱼 类 之 间 存 在 物理 差异 ， 所 以 这 两 种 不 同 的 鱼 类 种 群 有 不 同 的 模型 或 描述 。 
因此 , 分 类 任务 的 最 终 目标 是 让 分 类 器 学 习 这 些 不 同 的 模型 , 然后 将 这 两 种 类 型 中 的 一 种 作 




















为 输入 。 分 类 器 将 通过 选择 最 适合 该 图 像 的 模型 (金枪鱼 模型 或 月 鱼 模型 ) 来 对 它 进 行 分 类 。 














在 这 种 情况 下 ， 摄 像 头 收集 到 的 金枪鱼 和 月 鱼 图 像 将 作为 分 类 器 的 知识 库 。 最 初 ， 
知识 库 《〈 训 练 样本 ) 将 被 标记 。 所 以 说 ， 对 于 每 幅 图 像 ， 我 们 会 预先 知道 它 是 金枪鱼 还 

















是 月 鱼 。 分 类 器 将 使 用 这 些 训练 样本 来 对 不 同类 型 的 鱼 进行 建 模 ， 然 后 我 们 可 以 使 用 训 









































练 阶 段 中 己 构 建 的 分 类 器 来 自动 标记 在 训练 阶段 中 没有 见 到 的 未 标记 的 鱼 。 这 种 未 标记 


的 数据 通常 称 为 未 知 数据 。 整 个 训练 阶段 的 周 
期 如 图 1.3 所 示 。 











Bax. SEF nes 
金枪鱼 类 :让 全 (< 守信 <《... 以 及 更 多 
| 





下 面 讨论 分 类 器 的 训练 阶段 是 如 何 工 作 的 。 
e AME: 在 这 一 步 中 ， 我 们 将 尝试 使 用 
相关 的 分 割 方法 从 图 像 中 分 割 鱼 。 
e 特征 提取 : 在 通过 去 掉 背 景 将 鱼 从 图 
像 中 分 割 出 来 之 后 ， 测 量 每 幅 图 像 的 
WERE KE WR WET), 最 
后 会 得 到 图 1.4 所 示 的 结果 。 





































































































预 处 理 特征 提取 














图 1.3 训练 阶段 周期 





我 们 会 将 这 些 数据 输入 分 类 器 中 ， 以 对 不 同类 别 的 鱼 进行 建 模 。 





如 前 所 述 ， 用 户 可 以 通过 之 前 提出 的 诸如 长 度 、 





来 区 分 金枪鱼 和 月 鱼 。 











宽度 和 颜色 这 些 物 理 差异 〈 特 征 ) 
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图 1.4 两 种 鱼 的 长 度 直方 图 





























用 户 也 可 以 利用 长 度 特征 来 区 分 两 种 鱼 。 因 此 ， 我 们 可 以 通过 观察 鱼 的 长 度 并 判断 
它 是 否 超过 某 一 个 值 Cength*) 来 区 分 不 同 的 鱼 类 。 
所 以 ， 基 于 训练 样本 ， 我 们 可 以 得 出 下 面 的 规则 。 








If length(fish)> length* then label(fish) = Tuna 
Otherwise label(fish) = Opah 


为 了 求 length*， 我 们 可 以 设法 测量 训练 样本 的 长 度 。 假 定 用 户 测量 了 样本 的 长 度 并 
得 到 了 图 1.4 所 示 的 直方 图 。 

在 这 个 案例 中 ， 我 们 可 以 根据 长 度 得 出 一 条 规则 并 用 它 来 区 分 金枪鱼 和 月 鱼 。 在 这 
个 特定 的 例子 中 ，length* 为 7。 所 以 先前 的 规则 可 以 更 新 为 : 

















If length (fish)> 7 then label (fish) = Tuna 
Otherwise label (fish) = Opah 


读者 可 能 注意 到 了 ， 这 两 个 直方 图 存在 重 丫 ， 因 此 这 并 不 是 一 个 很 好 的 结果 ， 这 是 
因为 长 度 特征 并 不 能 完全 用 于 区 分 这 两 种 类 型 。 用 户 可 以 考虑 纳入 诸如 宽度 等 特征 ， 并 
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Ll 通过 示例 了 解数 据 科 学 





把 它们 结合 起 来 。 如 果 我 们 设法 测量 训练 样本 的 宽度 ， 可 能 会 得 到 图 1.5 所 示 的 直方 图 。 


可 以 看 出 ， 只 根据 一 个 特征 是 不 能 得 出 准确 的 结果 的 ， 输 出 模型 将 会 做 出 很 多 
错误 的 分 类 。 我 们 可 以 设法 结合 这 两 个 特征 ， 并 得 到 一 些 合理 的 模型 。 


如 果 结 合 这 两 个 特征 ， 我 们 就 可 能 得 到 图 1.6 所 示 的 散 点 图 。 





500 - 





宽度 





图 1.5 两 种 鱼 的 宽度 直方 图 


结合 长 度 和 宽度 特征 的 数值 , 可 以 得 到 图 1.6 所 示 的 散 点 图 。 图 中 浅 色 点 表示 金枪鱼 ， 
深 色 点 表示 月 鱼 ， 我 们 可 以 认为 中 间 这 条 黑 线 是 用 以 区 分 两 种 鱼 的 规则 或 者 决策 边界 。 

举例 来 说 ， 如 果 一 条 鱼 的 相关 数值 落 在 这 个 决策 边界 的 上 方 ， 它 就 是 一 条 金枪鱼 ; 
否则 ， 我 们 就 预测 它 为 一 条 月 鱼 。 
用 户 可 以 设法 增加 规则 的 复杂 度 以 避免 任何 可 能 的 错误 ， 这 样 做 会 得 到 一 个 新 的 散 
点 图 ， 如 图 1.7 所 示 。 

这 个 模型 的 好 处 是 在 训练 样本 上 错误 分 类 的 数量 接近 于 0， 而 实际 上 这 并 不 是 使 
用 数据 科学 的 目的 。 数 据 科学 的 目的 是 搭建 一 个 能 够 在 未 知 数据 上 泛 化 并 表现 良好 的 
模型 。 为 了 判断 该 模型 是 否 能 够 良好 地 泛 化 , 我们 将 引入 一 个 称 为 测试 阶段 的 新 阶段 。 
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在 这 个 阶段 里 , 用户 给 训练 好 的 模型 一 张 没有 贴标签 的 图 片 ， 希 望 模型 能 给 这 张 图 片 
贴 上 一 个 正确 的 标签 (金枪鱼 或 者 月 鱼 )。 
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图 1.6 两 种 鱼 的 长 度 和 宽度 子 集 之 间 的 组 合 
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图 1.7 增加 决策 边界 的 复杂 度 来 避免 训练 数据 的 错误 分 类 





数据 科学 的 最 终 目 的 是 建立 一 个 能 够 在 生产 中 (而 不 是 在 训练 集 上 ) 表现 
良好 的 模型 。 所 以 当 我 们 看 到 模型 在 训练 集中 表现 良好 时 ， 如 图 1.7 所 示 ， 

的 不 要 高 兴 得 太 早 。 大 多 数 情 况 下 ， 这 种 模型 在 识别 图 像 中 的 鱼 种 类 时 表现 
得 并 不 好 。 这 种 模型 只 在 训练 数据 集 上 表现 良好 的 状况 称 为 过 拟 合 ， 许 多 
从 业者 都 掉 进 了 这 个 陷阱 。 

















与 其 提出 一 个 复杂 的 模型 ， 不 如 让 用 户 用 一 个 相对 不 太 复杂 的 并 且 能 够 在 测试 阶段 
泛 化 的 模型 。 图 1.8 所 示 的 是 一 个 不 太 复 杂 的 模型 ， 该 模型 可 以 进一步 减少 错误 分 类 的 
数量 并 且 可 以 很 好 地 泛 化 未 知 的 数据 。 
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12 设计 数据 科学 算法 的 流程 
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1.2 














设计 数据 科学 








个 不 太 复 杂 的 模型 以 便于 可 以 在 测试 样本 〈 未 知 数据 ) 上 汉化 


法 的 流程 

















不 同 的 学 习 系统 通常 都 遵循 相同 的 设计 流程 。 它 们 首先 获取 知识 库 并 从 数据 中 选择 


相关 的 可 解释 特征 ， 然 后 遍历 一 系列 候选 的 学 习 算 法 3 






































监测 每 一 个 算法 的 性 能 ， 最 后 对 





它 进行 评估 ， 以 衡量 训练 过 程 是 否 成 功 。 
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地 叙述 所 有 的 设计 步 又， 如 图 1.9 所 示 。 
= 
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图 1.9 模拟 学 习 流 程 的 框架 
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1.2.1 数据 预 处理 
学 习 周 期 里 的 数据 预 处 理 相当 于 算法 的 知识 库 。 为 了 使 学 习 算 法 能 够 对 未 知 数据 做 
出 更 精确 的 决策 ， 用 户 必须 以 最 佳 形式 提供 这 种 知识 库 。 因 此 ， 数 据 可 能 需要 许多 的 清 
洗 与 预 处 理 〈 转 换 )。 
1. 数据 清洗 
大 多 数 数据 集 都 需要 经 历 这 个 步 又， 在 这 个 步骤 里 需要 去 除数 据 中 的 错误 、 噪 声 和 
宛 余 。 数 据 必须 是 准确 、 完 整 、 可 靠 和 无 偏 的 ， 这 是 因为 使 用 劣质 的 知识 库 可 能 产生 如 
下 许多 的 问题 。 
e 结论 不 精确 、 有 偏 。 
e 错误 率 增加 。 
e 泛 化 能 力 降低 , 泛 化 能 力 是 指 模型 在 之 前 训练 中 未 使 用 过 的 未 知 数据 上 表现 良好 
的 能 
2. 数据 预 处 理 
在 这 个 步骤 里 ， 数 据 通过 一 些 转换 而 变 得 一 致 旦 具体 。 在 数据 预 处 理 前 有 许多 不 同 
的 转换 方法 可 供 参考 。 
e 重 命名 ( 重 标记 )， 这 表示 将 类 别 的 值 转换 为 数值 ， 这 是 因为 类 别 的 值 与 某 些 学 
习 算 法 一 起 使 用 是 危险 的 ， 并 且 数 字 会 在 不 同 的 值 之 间 附 加 一 个 顺序 。 
e 改变 尺度 ( 归 一 化 ) 将 连续 的 数值 转换 或 限制 在 革 个 范围 内 ， 通 常 是 [-1,1] 或 [0,1]。 
e 新 特征 : 从 现 有 的 特征 中 合成 新 的 特征 。 比 如 ， 肥 胖 因子 = 体重 /身高 。 


1.2.2 ”特征 选择 

样本 的 解释 特征 性 (输入 变量 〉 可 能 是 非常 庞大 的 ， 比 如 用 户 拿 到 一 个 输入 x = 

noX) ， 将 它 作 为 训练 样本 观察 数据 /示例 )， 并 且 d 非常 大 。 这 种 情形 的 

个 例子 是 文档 分 类 任务 3， 在 这 个 任务 里 用 户 拿 到 10 000 个 不 同 的 单词 ， 而 输入 变量 则 

是 这 些 不 同 单词 的 出 现 频次 。 
这 种 数量 巨大 的 输入 变量 可 能 是 有 问题 的 ， 有 时 候 甚至 是 灾难 性 的 ， 因 为 开发 人 员 

有 很 多 的 输入 变量 ， 却 只 有 很 少 的 训练 样本 来 帮助 他 们 进行 学 习 。 为 了 避免 拥有 大 量 输 
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12 设计 数据 科学 算法 的 流程 




















入 变量 这 个 问题 (维度 灾难 ), 数据 科学 家 用 降 维 技术 来 选取 输入 变量 的 一 个 子 集 。 比如， 
在 文本 分 类 任务 中 ， 可 以 采用 以 下 方法 。 


e 提取 相关 的 输入 〈 如 互信 息 方法 )。 
e 主 成 分 分 析 (PCA )。 
e 将 相似 的 单词 分 组 〈 聚 类 )， 这 里 用 到 了 相似 性 度 


1.2.3 ”模型 选择 

利用 降 维 技术 选择 了 一 个 合适 的 输入 变量 子 集 后 ， 接 下 来 就 是 模型 选择 了 。 选 择 合 
适 的 输入 变量 子 集 ， 将 使 得 接 下 来 的 学 习 过 程 变 得 非常 简单 。 

在 这 个 步骤 里 ， 用 户 试 图 找到 一 个 正确 的 模型 来 学 习 。 


如 果 读 者 之 前 有 过 数据 科学 方面 的 经 验 ， 并 曾经 将 学 习 方法 应 用 到 不 同 的 领域 和 不 
同 的 数据 当中 ， 那 么 这 部 分 内 容 会 相对 比较 简单 ， 因 为 这 个 步骤 需要 预先 了 解数 据 的 样 
貌 ， 以 及 知道 什么 样 的 假设 是 适合 数据 的 本 质 的 ， 并 基于 此 来 选择 合适 的 学 习 方法 。 如 
果 读 者 没有 预备 知识 也 没有 关系 ， 因 为 读者 可 以 通过 猜测 和 尝试 不 同 参数 的 不 同 模型 ， 
并 选择 一 个 在 测试 集 上 表现 最 好 的 模型 ， 来 完成 这 个 步骤。 


此 外 , 初始 数据 分 析 和 数据 可 视 化 将 会 帮助 你 对 数据 的 分 布 形式 与 性 质 做 出 更 好 的 猜测 。 
1.2.4 ”学 习 过 程 
学 习 指 的 是 用 户 用 来 选择 最 佳 模型 参数 的 优化 指标 。 有 以 下 不 同 的 优化 指标 可 以 选择 : 
e 均 方 误差 ( MSE); 
€ EX ML ) 准则 ; 
e 最 大 化 后 验 概率 ( MAP ). 
有 些 优化 问题 可 能 本 身 很 难 解 决 ， 但 选择 正确 的 模型 和 误差 函数 会 使 得 情况 有 所 改善 。 


1.2.5 ”评估 模型 


在 这 一 步 中 ， 用 户 尝试 测量 模型 在 未 知 数据 上 的 泛 化 误差 。 既 然 用 户 只 有 特定 的 数 
据 而 无 法 事先 了 解 任何 未 知 的 数据 ， 就 可 以 通过 在 数据 集 里 随机 地 选择 一 部 分 作为 测试 
集 ， 并 且 在 训练 过 程 中 从 不 使 用 它 ， 从 而 使 得 这 部 分 数据 充当 未 知 的 有 效 数据 。 有 很 多 
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方法 可 用 于 评估 所 选 模型 的 性 

e 简单 的 留 出 Choldout) 法 ， 这 种 方法 将 数据 简单 地 分 为 训练 集 和 测试 集 。 

e 其 他 更 复杂 的 方法 ， 如 基于 交叉 验证 和 随机 降 采 样 的 方法 。 

这 一 步 的 目的 是 比较 在 相同 数据 集 上 训练 出 来 的 不 同 模型 的 预测 性 能 ， 并 选择 一 个 
拥有 最 小 的 测试 误差 的 模型 ， 这 个 模型 将 会 在 未 知 数据 上 表现 出 较 好 的 泛 化 误差 。 用 户 
也 可 以 用 统计 方法 判断 结果 的 显著 性 ， 以 得 到 泛 化 误差 更 准确 的 信息 。 
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1.3 ”开始 学 习 


搭建 一 个 机 器 学 习 系 统 将 面临 一 些 挑战 与 问题 ， 本 节 中 我 们 将 尝试 解决 这 些 问题 。 
其 中 的 许多 问题 是 在 特定 领域 内 存在 的 ， 而 另 一 些 则 不 是 。 
学 习 的 挑战 

下 面 列 出 了 在 尝试 搭建 学 习 系统 时 ， 开 发 人 员 通 常会 遇 到 的 一 些 挑战 和 问题 。 

1. 特征 提取 一 一 特征 工程 

特征 提取 是 搭建 机 器 学 习 系统 过 程 时 重要 的 一 步 。 如 果 开 发 人 员 通 过 选择 适当 /正确 
数量 的 特征 来 很 好 地 解决 这 一 挑战 ， 那 么 学 习 过 程 的 其 余部 分 将 会 很 简单 。 此 外 ， 特 征 
提取 是 依赖 于 领域 的 ， 并 且 需 要 先 验 知识 来 了 解 哪些 特征 对 于 特定 任务 来 说 可 能 是 重要 
的 。 例 如 ， 前 文 提 到 的 鱼 类 识别 系统 的 特征 与 垃圾 邮件 检测 或 识别 指纹 的 特征 不 同 。 

特征 提取 将 从 开发 人 员 拥 有 的 原始 数据 开始 ， 然 后 构建 衍生 的 变量 /数值 〈 特 征 )， 
这 些 特 征 将 为 学 习 任 务 提供 有 用 的 信息 ， 并 有 助 于 后 续 的 学 习 和 评估 〈 泛 化 )。 

一 些 任务 具有 大 量 的 特征 而 只 有 较 少 的 训练 样本 (观察 )， 用 于 促进 随后 的 学 习 和 泛 化 
过 程 。 在 这 种 情况 下 ， 数 据 科学 家 使 用 降 维 技术 来 将 大 量 的 特征 缩减 为 一 个 比较 小 的 集合 。 


2. 噪声 






















































































































































































































































































































































































在 鱼 类 识别 任务 中 ， 读 者 可 以 看 到 长 度 、 重 量 、 鱼 的 颜色 以 及 船 的 颜色 可 能 会 有 
所 不 同 ， 同 时 可 能 还 存在 阴影 、 低 分 辨 率 的 图 像 以 及 其 他 物体 。 所 有 这 些 问 题 都 会 对 
这 些 本 应 为 鱼 类 分 类 任务 提供 信息 的 解释 性 特征 产生 影响 。 


一 些 解决 方案 在 这 种 情况 下 会 有 帮助 。 例 如 ， 有 人 可 能 会 考虑 检测 船只 的 ID 并 且 
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去 除 船只 中 茶 些 可 能 不 包含 系统 所 要 检测 鱼 类 的 部 分 ， 这 种 解决 方案 将 会 减 小 搜索 空间 。 
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数据 集 上 出 现 的 性 能 误差 3 
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. 过 拟 合 





正如 你 在 鱼 类 识别 任务 




















对 训练 样本 中 的 每 个 实例 都 
这 类 模型 并 不 能 在 未 见 过 的 




















中 所 看 到 的 ， 开 发 人 员 尝 试 通过 增加 模型 复杂 性 并 使 得 模型 
能 完美 分 类 , 试图 提高 模型 的 性 能 。 正 如 你 在 之 后 将 看 到 的 ， 
数据 上 正常 工作 《比如 开发 人 员 用 于 测试 模型 性 能 的 数据 )。 











































































































练 的 模型 在 训练 样本 集 上 
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如 果 读 者 浏览 本 章 的 后 





本 当 作 模 型 的 知识 




















超常 发 挥 但 在 测试 样本 集 上 表现 不 佳 的 情况 称 为 过 拟 合 。 
半 部 分 ， 那 么 会 看 到 我 们 将 构建 一 个 学 习 系 统 ， 其 目标 是 将 
， 以 便 从 中 学 习 并 在 未 见 过 的 数据 上 泛 化。 训练 模型 在 训练 















































不 是 用 户 所 感 兴趣 的 ， 相 反 ， 用 户 比 较 感 兴趣 的 是 训练 模型 























在 那些 训练 过 程 中 未 见 过 的 测试 样本 上 出 现 的 误差 。 
4. 机 器 学 习 算 法 的 选择 


习 


有 时 候 用 户 对 于 模型 在 某 一 特定 任务 上 的 表现 不 满意 ， 而 需要 另 一 类 模型 。 每 种 

















策略 都 有 它 自 己 关 于 数据 
员 ， 读 者 应 该 去 发 掘 哪 种 观 
模型 而 拒绝 另 一 类 模型 。 
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， 先 验 知识 





以 解决 这 两 个 问题 : 


@ 合适 的 特征 ; 








e 模型 选择 部 分 。 


























事先 了 解 鱼 类 识别 系统 中 的 解释 性 特征 使 得 用 户 能 够 区 分 不 同类 型 的 鱼 类 。 通 过 努 
类 的 信息 





力 想象 分 析 所 拥有 的 信息 ， 
。 在 此 先 验 知识 的 基础 上 


型 





方法 可 以 处 到 
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缺失 的 特征 主要 是 由 
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学 
的 假设 ， 而 这 种 假设 将 成 为 学 习 的 基础 。 作 为 一 名 数据 研究 
点 最 适用 于 你 的 数据 ， 这 样 读者 就 有 能 力 去 选择 尝试 哪 一 类 




















正如 在 模型 选择 和 特征 提取 的 概念 中 所 讨论 一 样 ， 如 果 读 者 有 以 下 先 验 知识 ， 就 可 































































































用 户 可 以 做 出 更 好 的 判断 并 且 了 解 到 不 同 鱼 群 分 
， 就 可 以 选择 合适 的 模型 徐 了 。 


























于 缺少 数据 或 选择 了 “保密 ”选项 而 导致 的 。 用 户 在 学 习 过 程 
中 要 怎么 处 理 这 类 问题 呢 ? 例如 ， 某 类 鱼 的 宽度 特征 因为 某 些 原因 而 丢失 了 。 有 很 多 种 
这 些 丢失 的 特征 。 
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1.4 实现 鱼 类 识别 /检测 模型 























了 介绍 机 器 学 习 《〈 特 别 是 深度 学 习 ) 的 能 力 ， 本 节 将 实现 鱼 类 识别 的 例子 。 这 并 不 
者 了 解 代码 的 内 部 细节 。 本 节 重 点 讲述 典型 机 器 学 习 的 流程 。 


该 任务 的 知识 库 是 一 系列 图 像 ， 其 中 每 张 图 像 都 贴 上 了 月 鱼 或 者 金枪鱼 的 标签 。 在 这 次 
实现 中 ， 读 者 将 使 用 其 中 一 种 深度 学 习 架 构 ， 该 架构 在 图 像 和 计算 机 视觉 领域 取得 了 突破 。 
这 种 架构 叫 作 卷 积 神经 网 络 (CNN)。 卷 积 神经 网 络 是 一 类 深度 学 习 架 构 ， 它 通过 图 像 处 理 的 
卷 积 运算 来 从 图 像 当 中 提取 特征 ， 以 解释 需要 分 类 的 对 象 。 现 在 ， 我 们 可 以 把 它 当成 一 个 魔 

\ 盒 ， 它 将 读 取 图 像 ， 从 中 学 习 如 何 区 分 这 两 类 对 象 〈 月 鱼 和 金枪鱼 )， 然 后 向 这 个 盒子 得 入 
未 贴标签 的 图 像 以 测试 它 的 学 习 过 程 ， 并 观察 它 是 否 能 够 分 辨 图 像 中 是 哪 一 类 鱼 。 
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O: 不 同类 型 的 学 VO Te TA 因此 我 们 将 在 后 面 了 解 为 什么 上 
述 鱼 类 识别 任务 属于 监督 学 习 类 别 。 





























这 个 例子 中 将 会 使 用 Keras。 现在 我 们 可 以 把 Keras 当成 一 个 使 得 搭建 和 使 用 深度 学 
习 更 加 简单 的 API。 从 Keras 网 站 上 可 以 看 到 : 
Keras 是 一 个 高 级 神经 网 络 API， 用 Python 编写 ， 能 够 在 TensorFlow、CNTK 或 
Theano 之 上 运行 。 它 旨 在 实现 快速 实验 ， 能 够 以 最 短 的 时 间 把 想法 转换 为 结果 
是 做 好 研究 的 关键 。 
1.4.4 知识 库 /数据 集 
正如 前 文 所 提 到 的 ， 开 发 需要 以 历史 数据 库 作 为 基础 ， 这 将 用 来 使 学 习 算 法 了 解 其 
后 期 应 该 完成 的 任务 。 但 是 我 们 还 需要 另 一 个 数据 集 来 测试 学 习 算 法 在 学 习 过 程 后 执行 
任务 的 能 力 。 总 而 言 之 ， 在 学 习 过 程 中 需要 两 类 数据 集 。 
第 一 类 数据 集 是 拥有 输入 数据 及 其 对 应 标签 的 知识 库 ， 例 如 鱼 的 图 像 和 它们 的 对 应 
标签 (月 鱼 和 金枪鱼 )。 把 这 类 数据 输入 学 习 算 法 中 ， 学习 算 法 从 中 学 习 并 发 现 之 后 将 用 
分 类 未 标记 图 像 的 模式 /趋势 。 


第 二 类 数据 集 主要 用 于 测试 模型 将 从 知识 库 中 学 到 的 知识 应 用 于 未 标记 的 图 像 或 未 
查看 的 数据 上 的 能 力 ， 并 检查 模型 是 否 运 行 良好 。 


正如 我 们 所 看 到 的 ， 开 发 人 员 只 拥有 用 来 当 作 学 习 算 法 知识 库 的 数据 。 我 们 所 拥有 
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的 所 有 数据 都 带 有 相应 的 正确 的 输出 。 











数据 〈 模 型 将 应 用 于 这 些 数据 上 )。 





e 训练 阶段 : 在 这 个 阶段 ， 知识 库 将 提供 数据 ， 并 把 输入 数据 和 正确 输出 
给 模型 来 训练 学 习 算法 /模型 。 

e 验证 /测试 阶段 : 在 
的 模型 属性 技术 ， 

回 率 和 精确 率 等 来 度量 训练 好 的 模型 的 性 能 

常 分 为 如 下 两 步 。 

并 基于 验证 


验证 /测试 阶段 通 


(1) 


此 步骤 为 验 
度量 和 报告 所 选 模型 在 测试 集 上 的 准确 率 ， 此 步 村 
到 的 数据 ， 并 了 解 它 能 训练 得 多 好 。 


(2) 


现在 我 们 将 学 习 如 何 获取 这 些 模型 将 会 有 





在 数据 科学 中 ， 将 进行 以 下 操作 。 


现在 需要 



































这 个 阶段 ， 我 们 将 度量 



























































法 /模型 ， 





使 用 不 同 的 学 习 香 
证 步骤 。 























并 通过 使 用 回 








归 的 人 分数、 














以 某 种 方法 来 准备 这 
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不 带 正 确 输出 的 























起 提供 
































训练 好 的 模型 的 效果 ， 还 将 使 用 不 同 


分 类 器 的 分 类 错误 


A. IR 模型 的 召 














法 /模型 ， 














对 性 能 最 好 的 学 习 





Ae MAA TR 














既然 没有 不 带 正确 输出 的 训练 样本 ， 我 们 就 可 以 从 将 要 使 用 到 的 原始 训练 样本 中 


生成 一 个 。 我 们 可 以 将 数据 样本 分 成 3 个 不 同 的 集合 (如 
选取 原始 数据 样本 中 的 70%。 
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图 1.10 所 示 )。 
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训练 集 : 这 个 数据 集 将 作为 模型 的 知识 库 ， 通 
验证 集 : 这 个 数据 集 将 用 来 从 一 系列 模型 中 选择 性 能 最 好 的 模型 , 通常 选取 原始 
数据 样本 中 的 10%。 
测试 集 : 这 个 数据 集 将 用 来 度量 和 报告 所 选 模 型 的 准确 率 , 通常 它 和 验证 集 一 样 大 。 
数据 集 
训练 留 出 法 
| pres | 
数据 许可 : 
训练 验证 训练 、 验 证 、 测 斌 

















测试 集 











图 1.10 ”将 数据 分 为 训练 集 、 验 证 
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这 个 例子 只 使 用 了 一 种 学 习 算 法 ,因此 可 以 取消 验证 集 ， 并 重新 把 数据 只 分 为 训练 集 
和 测试 集 。 通 常 ， 数 据 科学 家 采用 75/25 的 百分比 ， 或 者 70/30. 
1.4.2 ”数据 分 析 预 处 理 


本 节 将 对 输入 图 像 进行 分 析 和 预 处 理 ， 将 它 变 成 这 里 的 卷 积 神经 网 络 学 习 算法 所 接 
受 的 格式 。 


接 下 来 ， 从 导入 这 个 应 用 所 需要 的 包 开 始 。 












































































































































import numpy as np 
np.random.seed(2018) 
import os 

import glob 

import cv2 

import datetime 
import pandas as pd 
import time 

import warnings 


warings.filterwarnings ("ignore") 


from sklearn.cross validation import KFold 

from keras.models import Sequential 

from keras.layers.core import Dense, Dropout, Flatten 

from keras.layers.convolutional import Convolution2D, MaxPooling2D, 
ZeroPadding2D 

from keras.optimizers import SGD 

from keras.callbacks import EarlyStopping 

from keras.utils import np utils 


from sklearn.metrics import log loss 





from keras import _ version as keras version 


为 了 使 用 数据 集 所 提供 的 图 片 ， 我 们 需要 通过 以 下 代码 把 它们 调整 为 同样 大 小 。 从 
OpenCV 网 站 上 可 以 得 知 ，OpenCV 是 完成 这 项 工作 的 一 个 好 选择 
































o 





开源 计算 机 视觉 库 ( Open Source Computer Vision Library, OpenCV ) 是 在 
BSD 许可 证 下 发 行 的 ， 它 在 学 术 和 商业 应 用 当中 都 是 免费 的 。 它 有 C++、C、 

Python 和 Java 接口 , 并且 支持 Windows. Linux. MacOS. iOS 和 Android 系统 。 
OpenCV 是 为 高 效 计 算 而 设计 的 ,并 着 重 于 实时 应 用 。OpenCV 用 优化 的 C/C++ 
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写成 ， 这 使 得 它 可 以 利用 多 核 处 理 器 资源 。 启 用 OpenCL 后 ， 它 可 以 利用 底层 
异 构 计算 平台 的 硬件 加 速 。 


可 以 通过 使 用 Python 软件 包 管 理 器 和 命令 pip install opencv-python 来 安装 
OpenCV, 


# Parameters 


# img path : path 
# path of the image to be resized 
def resize image (img path): 
#reading image file 
img = cv2.imread(img_path) 
#Resize the image to be 32 by 32 
img_resized = cv2.resize(img, (32,32), cv2.INTER_LINEAR) 


return img_resized 


现在 需要 加 载 所 有 数据 集中 的 训练 样本 ， 并 根据 前 面 的 函数 改变 每 幅 图 像 的 大 小 。 
下 面 将 实现 一 个 从 保存 不 同 鱼 类 的 不 同文 件 夹 中 加 载 训练 样本 的 函数 。 




















# Loading the training samples and their corresponding labels 
def load training samples(): 
#Variables to hold the training input and output variables 
train input variables = [] 
train input variables id = [] 
train label = [] 
# Scanning all images in each folder of a fish type 
print('Start Reading Train Images') 
folders = ['ALB', 'BET', 'DOL', 'LAG', 'NoF', 'OTHER', 'SHARK', 'YFT'] 
for fld in folders: 
folder index = folders.index(fld) 
print('Load folder {} (Index: {})'.format(fld, folder index)) 
imgs path = os.path.join('..', 'input', 'train', fld, '*.jpg') 
files = glob.glob(imgs path) 
for file in files: 
file base = os.path.basename (file) 
# Resize the image 
resized img = rezize image(file) 
# Appending the processed image to the input/output variables of the 
classifier 


train input variables.append(resized img) 
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train input variables id.append (file base) 
train label.append (folder index) 


return train input variables, train input variables id, train label 





正如 前 面 所 讨论 的 ， 有 一 个 测试 集 将 作为 未 见 过 的 数据 来 测试 模型 的 泛 化 能 力 ， 所 以 


我 们 必须 对 测试 图 片 进行 相同 的 操作 : 加 载 它 们 并 改变 它们 的 大 小 。 





def load_testing_samples(): 


# Scanning images from the test folder 
imgs path = os.path.join('..', 'input', 'test stgl', '*.jpg') 
files = sorted(glob.glob(imgs_path) ) 
# Variables to hold the testing samples 
testing samples = [] 
testing_samples_id = [] 
#Processing the images and appending them to the array that we have 
for file in files: 
file base = os.path.basename (file) 
# Image resizing 
resized img = rezize_image (file) 
testing samples.append(resized img) 
testing samples id.append(file base) 


return testing samples, testing samples id 


























现在 需要 在 另 一 个 函数 里 调用 前 一 个 函数 ， 这 个 函数 将 会 用 load training samples() 
函数 来 加 载 和 改变 训练 样本 的 大 小 。 同 时 ， 添 加 几 行 代码 来 将 训练 数据 转换 为 Numpy 
格式 ， 调 整数 据 形 状 以 适应 分 类 器 模型 ， 最 后 把 数据 转换 为 浮 点 数 类 型 。 











def load normalize training samples(): 


# Calling the load function in order to load and resize the training samples 
training samples, training label, training samples id -1load training samples () 
# Converting the loaded and resized data into Numpy format 

training samples = np.array(training samples, dtype-np.uint8) 

training label = np.array(training label, dtype-np.uint8) 

# Reshaping the training samples 

training samples = training samples.transpose((0, 3, 1, 2)) 

# Converting the training samples and training labels into float format 

training samples = training samples.astype('float32') 


training samples - training samples / 255 





training label = np utils.to categorical(training label, 8) 


return training samples, training label, training samples id 
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Tm 


对 测试 集 也 需要 进行 相同 的 操作 。 





def load normalize testing samples(): 

Calling the load function in order to load and resize the testing samples 
testing samples, testing samples id - load testing samples() 

Converting the loaded and resized data into Numpy format 

testing samples - np.array(testing samples, dtype-np.uint8) 

Reshaping the testing samples 


testing samples - testing samples.transpose((0, 3, 1, 2)) 








Converting the testing samples into float format 


testing samples = testing samples.astype('float32') 





testing samples - testing samples / 255 


return testing samples, testing samples id 


1.4.3 ”搭建 模型 


下 面 开始 创建 模型 了 。 正 如 前 文 提 到 的 ,我们 将 一 种 名 为 CNN 的 深度 学 习 架 构 〈 如 
1.11 所 示 ) 作为 鱼 类 识别 任务 的 学 习 算 法 。 同 样 ， 因 为 本 节 只 演示 在 Keras 和 TensorFlow 
深度 学 习 平台 的 帮助 下 如 何 仅 使 用 几 行 代码 来 解决 复杂 的 数据 科学 任务 ， 所 以 读者 不 需 
要 了 解 本 章 中 以 前 出 现 过 的 或 即将 出 现 的 代码 。 
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1.11 CNN 架构 























CNN 和 其 他 深度 学 习 架 构 的 更 多 详细 知识 将 在 后 面 的 章节 中 介绍 。 
现在 继续 构造 一 个 函数 以 创建 鱼 类 识别 任务 中 使 用 的 CNN 架构 。 
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def create cnn model arch(): 
pool size = 2 # we will use 2x2 pooling throughout 
conv depth 1 = 32 # we will initially have 32 kernels per conv.layer... 
conv depth 2 = 64 4 ...switching to 64 after the first pooling layer 
kernel size = 3 # we will use 3x3 kernels throughout 

drop prob = 0.5 # dropout in the FC layer with probability 0.5 

hidden size = 32 # the FC layer will have 512 neurons 

num classes = 8 # there are 8 fish types 

Conv [32] ->Conv [32] -> Pool 

cnn model = Sequential() 

cnn model.add(ZeroPadding2D((1, 1), input shape-(3, 32, 32), 





dim ordering-'th')) 
cnn model.add(Convolution2D (conv depth 1, kernel size, kernel size, 
activation='relu', 


dim ordering-'th')) 





cnn model.add(ZeroPadding2D((1, 1), dim ordering-'th')) 
cnn model.add(Convolution2D (conv depth 1, kernel size, kernel size, 
activation='relu', 
dim ordering-'th')) 
cnn model.add(MaxPooling2D(pool size-(pool size, pool size), 
strides-(2, 2), 
dim ordering-'th')) 
# Conv [64] ->Conv [64] -» Pool 
cnn model.add(ZeroPadding2D((1, 1), dim ordering-'th')) 
cnn model.add(Convolution2D (conv depth 2, kernel size, kernel size, 
activation='relu', 
dim ordering-'th')) 
cnn model.add(ZeroPadding2D((1, 1), dim ordering-'th')) 
cnn model.add(Convolution2D (conv depth 2, kernel size, kernel size, 
activation='relu', 


dim ordering-'th')) 





cnn model.add(MaxPooling2D(pool size-(pool size, pool size), 

strides-(2, 2), 
dim ordering-'th')) 

# Now flatten to 1D, apply FC then ReLU (with dropout) and finally softmax 
(output layer) 

cnn model.add(Flatten()) 

cnn model.add(Dense(hidden size, activation-'relu!')) 

cnn model.add(Dropout (drop prob)) 

cnn model.add(Dense(hidden size, activation='relu') ) 

cnn model.add(Dropout (drop prob)) 


cnn model.add(Dense (num classes, activation='softmax') ) 


$s 48 ———————————————— 
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# initiating the stochastic gradient descent optimiser 
stochastic_gradient_descent = SGD(lr=le-2, decay=le-6, momentum=0.9, 
nesterov=True) cnn model.compile(optimizer-stochastic gradient descent, 


# using the stochastic gradient descent optimiser 


loss-'categorical crossentropy') # using the cross-entropy loss 
function 


return cnn model 









































在 开始 训练 模型 之 前 ， 我 们 需要 使 用 模型 评估 和 验证 方法 来 帮助 评估 模型 ， 并 检测 
它 的 泛 化 能 力 。 因 此 ， 接 下 来 需要 用 到 k 折 交 叉 验证 法 。 读 者 不 需要 理解 这 种 方法 或 它 
的 工作 原理 ， 因 为 本 书 将 在 稍 后 详细 解释 这 种 方法 。 


下 面 开 始 并 构造 一 个 帮助 评估 和 验证 模型 的 函数 。 
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def create model with kfold cross validation (nfolds=10): 


batch size = 16 # in each iteration, we consider 32 training examples at once 


num epochs = 30 # we iterate 200 times over the entire training set 


random state = 51 # control the randomness for reproducibility of the results 
on the same platform 


# Loading and normalizing the training samples prior to feeding it to the 
created CNN model 

training samples, training samples target, training samples id = 

load normalize training samples () 

yfull train = dict() 

# Providing Training/Testing indices to split data in the training samples 

# which is splitting data into 10 consecutive folds with shuffling 

kf = KFold(len(train id), n folds-nfolds, shuffle=True, 
random state-random state) 

fold number = 0 4 Initial value for fold number 

sum score = 0 # overall score (will be incremented at each iteration) 

trained_models = [] # storing the modeling of each iteration over the folds 

# Getting the training/testing samples based on the generated training/ 
testing indices by 

Kfold 
for train_index, test_index in kf: 
cnn model = create cnn model arch() 
training samples X = training samples[train index] # Getting the training 
input variables 
training samples Y = training samples target[train index] # Getting the 

training output/label variable 


validation samples X = training samples[test index] f£ Getting the validation 
input variables 
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validation samples Y = training samples target[test index] 4 Getting the 
validation output/label variable 
fold number += 1 
print('Fold number () from {}'.format (fold number, nfolds)) 
callbacks = [ 
EarlyStopping (monitor-'val loss', patience-3, verbose=0), 
] 
# Fitting the CNN model giving the defined settings 
cnn model.fit(training samples X, training samples Y, 
batch size-batch size, 
nb epoch-num epochs, 
shuffle-True, verbose-2, 
validation data- (validation samples X, 
validation samples Y), 
callbacks-callbacks) 
# measuring the generalization ability of the trained model based on 
the validation set 
predictions of validation samples - 
cnn model.predict(validation samples X.astype('float32'), 
batch size-batch size, verbose-2) 
current model score - log loss(Y valid, 
predictions of validation samples) 
print('Current model score log loss: ', current model score) 
sum score += current model score*len(test index) 
# Store valid predictions 
for i in range(len(test index)): 
yfull train[test index[i]] = 
predictions of validation samples[i] 
# Store the trained model 
trained models.append (cnn model) 
# incrementing the sum score value by the current model calculated score 
overall score - sum score/len(training samples) 
print("Log loss train independent avg: ", overall score) 
#Reporting the model loss at this stage 
overall settings output string = 'loss ' + str(overall score) + 
' folds ' + str(nfolds) + 
' ep_' + str(num epochs) 


return overall settings output string, trained models 


在 构建 好 了 模型 并 使 用 k 折 交 叉 验 证 法 来 评估 和 验证 模型 之 后 ， 我 们 需要 在 测试 集 
上 报告 训练 模型 的 结果 。 为 了 做 到 这 一 点 ， 将 使 用 k 折 交 叉 验 证 法 ， 但 是 这 次 是 在 测试 
集中 观察 训练 模型 的 效果 。 
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接 下 来 ， 需 要 以 受过 训练 的 CNN 模型 作为 输入 的 函数 ， 然 后 使 用 现 有 的 测试 集 来 
测试 它 : 





def test generality crossValidation over test set( 
overall settings output string, cnn models): 
batch size = 16 # in each iteration, we consider 32 training examples at once 
fold number = 0 4 fold iterator 
number of folds = len(cnn models) # Creating number of folds based on the 
value used in the training step 
yfull test = [] 4 variable to hold overall predictions for the test set 
#executing the actual cross validation test process over the test set 
for j in range (number of folds): 
model - cnn models[j] 
fold number += 1 
print('Fold number () out of {}'.format (fold number, 
number of folds)) 
#Loading and normalizing testing samples 
testing samples, testing samples id - 
load normalize testing samples() 
#Calling the current model over the current test fold 
test prediction = model.predict(testing samples, 
batch size-batch size, verbose-2) 
yfull test.append(test prediction) 
test result - merge several folds mean(yfull test, number of folds) 
overall settings output string = 'loss ' + 
overall settings output string \ + ' folds ' + 
str (number of folds) 
format results for types(test result, testing samples id,overall settings 


output string) 


1. 模型 训练 与 测试 





下 面 可 以 通过 调用 主 函 数 create model with kfold _ cross_validation0 来 创建 和 训练 
CNN 模型 了 ,该 CNN 模型 使 用 了 10 折 交 叉 验 证 法 。 然后 调用 测试 函数 来 度量 模型 在 测 
试 集 上 的 泛 化 能 力 。 












































if name == ' main . 
info string, models - create model with kfold cross validation() 


test generality crossValidation over test set (info string, models) 
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2. 鱼 类 识别 一 一 完 


在 解释 完 
通过 几 行 代码 来 构建 这 术 





查看 如 何 



































1.5 不 同学 习 类 型 


Arthur Samuel Ji: “数据 科学 使 得 计 
力 。” 所 以 任何 通过 读 取 训练 样 


策 的 软件 
































整 的 代码 


鱼 识别 示例 的 主要 构建 模块 之 后 ， 就 可 以 将 所 有 代码 片段 连接 在 一 起 ， 并 
完整 的 代码 放 在 本 书 附录 A 中 。 





一 个 复杂 的 系统 。 























机 能 够 在 没有 
网 以 便 在 没有 明确 编程 的 情 



























































都 可 以 视 为 学 习 。 数 据 科 学 或 学 习 有 3 种 不 同 的 形式 。 
图 1.12 所 示 为 常见 的 数据 科学 /机 器 学 习 类 
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骨 确 编程 的 情况 下 具备 学 习 能 
况 下 对 未 见 过 的 数据 进行 决 











机 器 学 习 
ME 无 监督 强化 
任务 驱动 数据 科学 学 习 与 环境 
(回归 /分 类 ) CEE) 交互 的 算法 
图 1.12 ”数据 科学 /机 器 学 习 的 不 同类 型 
1.5.1 监督 学 习 
大 部 分 数据 科学 家 都 使 用 监督 学 习 。 SU CURIOSE ARRIUS 具有 一 些 称 为 
输入 变量 CXO 的 解释 性 特征 ， 同 时 带 有 与 训练 样本 相关 联 的 标签 ， 这 些 标 签 称 为 输出 
变量 (Y), 监督 式 学 习 算法 的 目标 是 学 习 从 输入 变量 CO 到 输出 变量 (六 的 映射 数 。 
Y -f(X) 
因此 ， 监 督学 习 算法 将 尝试 近似 地 学 习 从 输入 变量 OO 到 输出 变量 (7) 的 映射 ， 
以 便 后 续 可 以 使 用 它 来 预测 未 知 禅 本 的 了 值 。 
图 1.13 所 示 为 监督 数据 科学 系统 的 典型 工作 流程 。 


这 种 学 习 称 为 监督 学 习 ， 


学 习 过 程 受 一 个 监督 者 监督 。 

































































因为 每 个 训练 样本 都 有 标签 /输出 。 在 这 种 情况 下 ， 我们 称 
算法 在 训练 样本 上 做 决策 ， 然 后 监督 者 根据 数据 的 正确 
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15 不 同学 习 类 型 

















签 进行 纠正 。 当 监督 学 习 算 法 达到 一 个 可 接受 的 准确 率 水 平 后 ， 学 习 过 程 就 会 终止。 
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图 1.13 一 个 典型 的 监督 学 习 工 作 流程 。 上 面 的 部 分 显示 了 训练 过 程 ， 从 把 原始 数据 输入 特征 

提取 模块 当中 开始 ， 用 户 将 在 这 里 选取 有 意义 的 解释 性 特征 来 代表 数据 。 然 后 ， 将 提取 /选择 的 

解释 特征 与 训练 集 相 结合 ， 并 将 它 反 馈 到 学 习 算 法 以 便 从 中 学 习 。 最 后 做 一 些 模 型 评 佑 来 调整 

参数 ， 并 获得 学 习 算法 以 从 数据 样本 中 获得 最 好 的 结果 

监督 学 习 有 两 种 形式 一 分 类 任务 和 回归 任务 。 

e 分 类 任务 : 标签 或 者 输出 变量 是 类 别 的 情况 ， 比 如 月 鱼 和 人 金枪鱼， 垃圾 邮件 和 非 
垃圾 邮件 。 


e 回归 任务 : 输出 变量 是 实数 的 情况 ， 比 如 房价 或 者 身高 。 


15.2 无 监督 学 习 

无 监督 学 习 被 视 为 信息 研究 人 员 使 用 的 第 二 种 最 常见 的 学 习 方式 。 在 这 种 类 型 的 学 习 
中 ， 数 据 只 给 出 了 解释 性 特征 或 输入 变量 (X)， 而 没有 任何 相应 的 标签 或 输出 变量 。 

无 监督 学 习 算法 的 目标 是 收集 信息 中 隐藏 的 结构 和 样 例 。 由 于 没有 与 训练 样本 相关 的 
标记 ， 因 此 这 种 学 习 称 为 无 监督 学 习 。 无 监督 学 习 是 一 个 没有 修正 的 学 习 过 程 ， 它 将 尝 
试 自行 找到 基本 结构 。 

无 监督 学 习 可 以 进一步 划分 为 两 种 形式 一 一 聚 类 任务 和 关联 规则 学 习 任务 。 

e 聚 类 任务 ; 发 现 训练 样本 中 相似 的 复 并 把 它们 划分 到 一 组 ， 比 如 ， 按 照 话题 划分 

文档 。 
e 关联 规则 学 习 任务 : 发 掘 一 些 能 够 描述 训练 样本 之 间 关 系 的 规则 ， 比 如 ， 观 看 电 
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影子 的 人 群 倾 向 于 观看 电影 Y. 
图 1.14 所 示 为 一 个 简单 的 无 监督 学 习 示 例 ， 在 这 个 例子 中 用 户 有 一 堆 分 散 的 文档 ， 
尝试 把 相似 的 文档 划分 在 一 块 。 
































P af ME eS 
E - 


分 散 的 文档 FECE 


图 1.14 无 监督 学 习 利 用 相似 性 度量 (如 欧 氏 距离 》 来 将 
相似 的 文档 进行 分 组 并 给 出 对 应 的 决策 边界 






























































1.5.3” 半 监督 学 习 
半 监 督学 习 是 介 于 监督 学 习 和 无 监督 学 习 之 间 的 一 种 学 习 类 型 , 用户 可 以 使 用 输入 变 
量 CO 进行 训练 ， 但 只 有 其 中 的 一 部 分 转 入 变量 通过 输出 变量 (7) 进行 标记 /标记 。 
这 类 学 习 的 一 个 很 好 的 例子 是 Flickr, Flickr 中 有 很 多 由 网 站 用 户 上 传 的 图 片 , 但 只 
有 其 中 的 一 小 部 分 图 片 贴 了 标签 (例如 日 落 、 海 洋 和 狗 等 )， 其 余 的 都 没有 标签 。 
为 了 解决 这 类 学 习 任务 ， 开 发 人 员 可 以 从 下 面 两 种 方法 选择 一 种 或 者 同时 使 用 二 者 。 
e 监督 学 习 : 训练 学 习 算法 对 未 标记 的 数据 做 出 预测 , 然后 将 整个 训练 样本 输入 模 
型 中 ， 从 中 学 习 并 在 未 知 的 数据 上 进行 预测 。 
e 无 监督 学 习 : 使 用 无 监督 学 习 算法 来 学 习 解 释 性 特征 或 输入 变量 的 基础 结构 , 就 
好 像 没 有 任何 标记 的 训练 样本 一 样 。 



























































































































































1.5.4 强化 学 习 

机 器 学 习 的 最 后 一 种 学 习 类 型 是 强化 学 习 ， 在 强化 学 习 中 只 有 奖励 信号 ， 而 没有 监 
督 者 。 

强化 学 习 算法 会 尝试 做 出 一 个 决策 ， 然 后 获得 一 个 奖励 信号 ， 这 个 信号 用 于 指出 这 












































1.7 总 结 

















个 决策 是 否 正确 。 此 外 ， 这 种 监督 反馈 或 奖励 信号 可 能 不 会 立即 出 现 ， 而 是 会 有 一 定 的 
延迟 。 例 如 ， 该 算法 现在 会 做 出 决定 ， 但 过 了 一 段 时 间 后 ， 奖 励 信 号 才 指 出 了 决策 是 好 
坏 。 
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1.6 数据 量 和 行业 需求 


数据 是 学 习 计 算 的 信息 库 : 任何 出 色 或 富有 想象 力 的 想法 在 缺少 信息 的 情况 下 都 将 
毫 无 意义 。 所 以 如 果 用 户 有 一 个 可 靠 的 信息 科学 应 用 以 及 正确 的 信息 ， 那 么 就 算 做 好 准 
备 工 作 了 。 
无 论 信息 结构 是 什么 样 的 ， 很 明显 ， 如 今 我 们 都 有 能 力 从 信息 中 挖掘 并 获取 一 些 激励 。 
然而 ， 因 为 海量 信息 已 经 司空 见 惯 ， 所 以 大 家 都 希望 信息 科学 中 的 仪器 和 新 技术 有 能 力 在 合 
理 的 学 习 时 间 内 处 理 这 些 海量 信息 。 当 今 任何 事情 都 在 产生 信息 ， 而 是 否 有 能 力 接受 它 是 一 
种 考验 。 大 型 的 组 织 〈 如 谷歌 、 微 软 、IBM 等 ) 都 在 发 展 自己 的 海量 信息 科学 规划 ， 以 处 理 
由 他 们 的 客户 每 天 产生 的 海量 信息 。 

TensorFlow 是 一 个 开源 的 机 器 智能 /数据 科学 平台 ,在 2016 年 11 月 9 日 由 谷歌 发 布 。 









































































































































































































































































































































它 是 一 个 可 扩展 的 分 析 平台 ， 使 数据 科学 家 能 够 在 可 见 的 时 间 内 构建 具有 大 量 数据 的 复 
杂 系 统 ， 并 且 使 他 们 能 够 使 用 贪 禁 的 学 习 方法 ， 这 些 学 习 方法 为 了 获得 好 的 性 能 需要 大 

















量 的 数据 。 


1.7 总 结 








本 章 讲述 了 如 何 构建 一 个 鱼 类 识别 学 习 系 统 ， 并 讲述 了 如 何在 TensorFlow 和 Keras 的 
帮助 下 使 用 几 行 代码 来 构建 复杂 的 应 用 程序 ,如 识别 鱼 类 的 应 用 程序 。 这 个 代码 示例 并 不 要 
求 读者 理解 ， 而 是 为 了 展示 构建 的 复杂 系统 的 可 见 性 ， 以 及 在 一 般 和 特定 的 深度 学 习 中 数据 
科学 如 何 成 为 一 种 易于 使 用 的 工具 。 
本 章 还 展示 了 数据 科学 家 在 构建 学 习 系统 时 可 能 遇 到 的 一 些 挑战 。 

本 章 还 研究 了 构建 学 习 系统 的 典型 设计 周期 ， 并 解释 了 此 周期 中 涉及 的 每 个 组 件 的 
总 体 思 路 。 

最 后 ， 本 章 介 绍 了 不 同 的 学 习 类 型 ， 大 企业 或 小 公司 每 天 都 产生 的 大 数据 ， 大 量 的 

数据 如 何 对 构建 可 扩展 的 工具 造成 挑战 ， 以 及 这 些 工 具 如 何 从 数据 中 分 析 和 挖掘 到 有 价 
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值 的 东西 。 


对 于 目前 所 提 到 的 这 些 内 容 ， 读 者 可 能 会 感到 有 点 不 知 所 措 。 不 用 担心 ， 本 章 所 讲 
到 的 大 部 分 内 容 都 会 在 其 他 章节 中 继续 讨论 ， 包 括 数据 科学 的 挑战 以 及 鱼 类 识别 示例 。 
本 章 的 主要 目的 是 让 读者 对 数据 科学 及 其 开发 周期 有 一 个 总 体 的 了 解 ， 但 不 要 求 读者 对 
其 中 的 挑战 和 代码 示例 有 深刻 的 理解 。 本 章 展 示 了 一 些 代码 示例 以 克服 数据 科学 领域 大 
多 数 新 手 的 恐惧 ， 并 向 他 们 展示 如 何 用 几 行 代码 完成 鱼 识别 等 复杂 系统 。 
接 下 来 ， 本 书 将 通过 一 个 例子 来 讲解 数据 科学 的 基本 概念 ， 开 启 实战 之 旅 。 下 一 部 
分 将 主要 通过 著名 的 “泰坦 尼克 ”示例 来 为 后 面 的 高 阶 内 容 做 准备 。 本 书 还 将 讨论 许多 
概念 ， 包 括 回归 和 分 类 的 不 同学 习 方 法 ， 不 同类 型 的 性 能 错误 ， 哪 种 性 能 错误 更 应 该 关 
注 ， 以 及 一 些 与 解决 数据 科学 挑战 和 处 理 不 同形 式 的 数据 样本 相关 的 问题 。 













































































































































































一 261 


第 2 章 
数据 建 模 实战 一 一 
“3 8 fe 号 99 示例 





























线性 模型 是 数据 科学 领域 的 基本 学 习 算 法 。 理 解 线性 模型 如 何 工作 对 于 学 习 数 据 科 
学 至 关 重 要 ， 因 为 它 是 大 多 数 复杂 学 习 算法 〈 包 括 神经 网 络 ) 的 基本 构建 模块 。 


本 章 将 深入 讲解 数据 科学 领域 的 一 个 著名 问题 一 一 “泰坦 尼克 号 ”示例 。 介 绍 这 个 例子 
的 目的 是 引入 线性 模型 以 进行 分 类 ， 并 让 读者 看 到 一 个 完整 的 机 器 学 习 系 统 的 运行 过 程 ， 从 
数据 的 处 理 和 探索 到 模型 的 评估 。 本 章 将 介绍 以 下 主题 。 

@ 线性 回归 模型 。 

e 线性 分 类 模型 。 


日 尼克 号 ”示例 一 一 建立 和 训练 模型 。 
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e 不 同类 型 的 误差 解析 。 





2.1 线性 回归 模型 


线性 回归 模型 是 最 基本 的 回归 模型 ， 并 且 广 泛 用 于 可 预测 数据 的 分 析 。 
总 体 思路 是 检查 以 下 两 件 事情 。 
e 一 组 解释 性 特征 /输入 变量 是 否 在 预测 输出 变量 方面 做 得 很 好 ? 该 模型 是 否 使 用 

了 可 以 解释 因 变量 〈 输 出 变量 ) 变化 的 特征 ? 

e 哪些 特征 是 因 变量 的 重要 特征 ? 它们 以 何 种 方式 影响 因 变 量 ( 由 参数 的 大 小 和 符 














H 
im 
X 
He 
em 






































































































































S 



























































第 2 章 ”数据 建 模 实战 一 一 “泰坦 尼克 号 ”示例 


FRI)? 回 
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回归 方程 可 表达 输入 变 





量 ) 之 间 的 关系 。 
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CB 





归 参 数 用 于 解释 一 个 输出 变 





E CIE SO) 与 一 个 或 多 个 输入 要 素 C 














变量 ) 对 
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〈《 因 变量 ) 的 影响 。 具 有 一 个 输入 




























































































































































































































































































变量 和 一 个 输出 变量 的 等 式 是 回归 方程 最 简单 的 形式 ， 回 归 方 程 定 义 为 y= ctbx。 这 里 ， 
y 是 被 预测 的 因 变 量 ，c 是 常数 ，b 是 回归 参数 /系数 ，x 是 输入 〈 自 ) 变量。 
2.1.1 原因 
线性 回归 模型 是 许多 学 习 算 法 的 基础 模块 ， 但 这 并 不 是 它们 受 欢迎 的 唯一 原因 。 以 
下 是 它 受 欢迎 的 关键 因素 。 
e 广泛 使 用 : 线性 回归 是 最 古老 的 回归 方法 ,， 它 广泛 应 用 于 许多 应 用 ， 如 预测 和 财 
务 分 析 。 
e 运行 速度 快 : 线性 回归 算法 非常 简单 ， 不 包含 复杂 的 数学 计算 。 
e 易于 使 用 ( 不 需要 很 多 调 参 操作 ): 线性 回归 非常 易于 使 用 ， 而 且 在 大 多 数 情 况 
F, 它 是 读者 在 机 器 学 习 或 数据 科学 课程 中 学 习 的 第 一 种 学 习 方法 , 因为 它 没 有 
太 多 的 超 参 数 需 要 调整 以 获得 更 好 的 性 能 。 
e 高 度 可 解释 : 因为 线性 回归 简单 而 且 易 于 检查 每 个 预测 -系数 对 
(Predictor-Coefticient Pair) 的 贡献 ， 所 以 线性 回归 是 高 度 可 解释 的 。 读 者 可 以 很 
容易 地 理解 模型 行为 ， 并 为 非 技 术 人 员 解 释 模型 输出 。 如 果 系 数 为 零 ， 则 相关 的 
预测 变量 不 起 任何 作用 。 如 果 系 数 不 为 零 , 则 可 以 很 容易 地 确定 特定 预测 变量 做 
出 的 贡献 。 
e 是 许多 其 他 方法 的 基础 : 线性 回归 是 许多 学 习 方法 的 基础 ， 如 神经 网 络 及 其 加 强 
版 、 深 度 学 习 。 


2.1.2 广告 一 一 一 个 财务 方面 的 例子 














为 了 更 好 地 到 











LE 解 线性 回归 模型 ， 本 节 将 介绍 








个 有 关 广 告 的 例子 。 我 们 将 尝试 通过 





研究 不 同 公司 在 电视 、 广 播 和 报纸 上 花费 的 广告 金额 来 预测 公司 的 销售 情况 。 
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1. 相关 性 





为 了 用 线性 回归 模型 来 建 模 本 节 中 的 广告 数据 相 
E。 稍 后 ， 我 们 将 使 用 scikit-learn， 它 对 于 一 般 的 数据 科学 非常 有 用 。 


模型 的 良好 特性 




















本 ， 我 们 使 用 统计 模型 库 来 获得 线 
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2.1 线性 回归 模型 


2. 使 用 pandas 导入 数据 


























Python 中 有 很 多 库 可 用 于 读 取 、 转 换 或 写 入 数据 , pandas 就 是 其 中 的 一 个 库 。pandas 











一 个 开源 的 库 ， 它 具有 强大 的 数据 分 析 功 能 工具 以 及 非常 简单 的 数据 结构 。 
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读者 可 以 通过 许多 不 同 的 方式 轻松 获得 pandas， 其 中 最 好 的 方法 是 通过 conda 安装 











“conda 是 一 个 开源 软件 包 管 理 系统 和 环境 管理 系统 ， 用 于 安装 多 个 版 本 的 
软件 包 及 其 依赖 关系 并 在 它们 之 间 轻 松 切换 。 它 适用 于 Linux 系统 、Mac OS X 
和 Windows 系统 。 虽 然 它 是 为 Python 程序 创建 的 ， 但 它 可 以 打包 并 分 发 任何 
语言 的 软件 。” 


一 一 conda 官网 


我 们 可 以 通过 安装 Anaconda 轻松 获得 conda，Anaconda 是 一 个 开放 的 数据 
科学 平台 . 
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Kio 


接 下 来 ， 我 们 来 看 看 如 何 使 用 pandas 来 读 取 广 告 数 据 样 本 。 首 先 ， 读 者 需要 导入 









































pandas. 


import pandas as pd 





接 下 来 ， 可 以 使 用 pandas.read csv 方法 将 数据 加 载 到 一 个 名 为 DataFrame 的 易于 使 











用 的 pandas 数据 结构 中 。 有 关 pandas.read csv 及 其 参数 的 更 多 信息 ， 可 以 参考 此 方法 的 


pandas 文档 。 





# read advertising data samples into a DataFrame 


advertising data = 
pd.read csv('http://www-bcf.usc.edu/-gareth/ISL/Advertising.csv', 
index col-0) 





传递 给 pandas.read csv 方法 的 第 一 个 参数 是 表示 文件 路 径 的 字符 串 值 。 该 字符 串 可 以 


























http. ftp. s3 和 文件 的 URL。 传 递 的 第 二 个 参数 是 将 用 作 数 据 行 的 标签 /名 称 的 列 的 索引 。 


























Ei 
AE 


现在 ， 我 们 有 DataFrame 数据 ， 其 中 包含 URL 中 提供 的 广告 数据 ， 每 行 的 标记 是 第 
一 列 的 数值 。 如 前 所 述 ，pandas 提供 易于 使 用 的 数据 结构 ， 我 们 可 以 将 它 当 作 数 据 容器 。 




















这 些 数据 结构 带 有 对 应 的 一 些 方法 ， 我 们 可 以 使 用 这 些 方 法 来 转换 或 操作 自己 的 数据 。 
现在 ， 看 一 下 广告 数据 的 前 5 行 ， 代 码 如 下 。 
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# DataFrame.head method shows the first n rows of the data where the 
# default value of n is 5, DataFrame.head(n-5) 


advertising data.head() 

















输出 如 下 。 
TV Radio Newspaper Sales 
1 230.1 37.8 69.2 22.1 
2 44.5 39.3 45.1 10.4 
3 17.2 45.9 69.3 9.3 
4 151.5 41.3 58.5 18.5 
5 180.8 10.8 58.4 12.9 














3. 理解 广告 数据 

这 个 问题 属于 监督 学 习 类 型 的 问题 , 其 中 有 解释 性 特征 (输入 变量 ) 和 输出 (输出 变量 )。 
输入 变量 如 下 。 
e 电视 投入 : 在 特定 市 场 上 为 单一 产品 花费 在 电视 上 的 广告 费用 (单位 是 干 美元 )。 
e 广播 投入 : 花费 在 广播 上 的 广告 费用 。 
e 报纸 : 花费 在 报纸 上 的 广告 费用 。 
输出 /结果 /输出 变量 是 销量 ， 即 在 特定 市 场 中 单 件 产品 的 销量 〈 单 位 是 千 件 
可 以 使 用 DataFrame 中 的 shape 方法 来 了 解数 据 中 样本 的 形状 。 
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# print the shape of the DataFrame 
advertising data.shape 

Output: 

(200, 4) 





TH 





所 以 可 以 得 知 数据 中 共有 200 AE 
4. 数据 分 析 和 可 视 化 


为 了 理解 数据 的 基本 形式 、 特 征 与 输出 之 间 的 关系 以 及 其 他 信息 ， 我 们 可 以 使 用 不 
同类 型 的 可 视 化 图 。 为 了 理解 广告 数据 特征 和 输出 之 间 的 关系 ， 本 节 将 使 用 散 点 图 。 


为 了 对 数据 进行 不 同类 型 的 可 视 化 , 我 们 可 以 使 用 Matplotlib, 这 是 一 个 用 于 可 视 化 


本 。 
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2. 线性 回归 模型 


的 Python 2D 库 。 要 获得 Matplotlib， 可 以 按照 Matplotlib 官网 中 的 安装 说 明 进 行 操作 。 


下 面 导 入 可 视 化 库 Matplotlib. 








import matplotlib.pyplot as plt 


# The next line will allow us to make inline plots that could appear 
directly in the notebook 
# without poping up in a different window 


Smatplotlib inline 


现在 ， 使 用 散 点 图 来 可 视 化 广告 数据 特征 和 输出 变量 之 间 的 关系 。 








fig, axs = plt.subplots(1, 3, sharey=True) 


# Adding the scatterplots to the grid 

advertising data.plot(kind-'scatter', x='TV', y-'sales', ax=axs[0], 
figsize-(16, 8) 

advertising data.plot(kind-'scatter', x='radio', y='sales', ax=axs[1] 


advertising data.plot(kind-'scatter', x-'newspaper', y='sales', ax=axs[2] 


输出 如 图 2.1 所 示 。 
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图 2.1 用 于 理解 广告 数据 特征 与 响应 变量 之 间 关 系 的 散 点 图 
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ME, RIE 




















要 了 角 
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E 














JEH 





的 问题 有 广告 与 销量 x 











影响 等 。 接 下 来 ， 











告 是 如 何 有 助 于 增加 销量 
间 的 关系 ， 














那 种 广告 对 销 



































我 们 将 尝试 使 用 





As 
[H] 


3506254 
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模型 来 











5. 简单 回归 模型 






































的 


EE， 间 自己 几 个 问题 。 值 得 
献 更 大 ， 每 种 广告 对 销量 的 


问题 。 








o 











- 
































线性 回归 模型 是 一 种 学 习 
定量 (也 称 为 数值 ) 输出 。 
只 有 一 个 特征 的 简单 线性 回归 模型 采用 以 下 形式 。 
y = Por fix 


其 中 ，y 表示 预测 值 〈 输 出 )， 即 销 


系数 。 
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要 学 习 这 些 系数 








模型 系数 。 为 了 创建 一 个 在 广告 例子 








E xo di d 





S xcAORDACEMIE: A RN 


法 ， 它 使 用 一 些 解释 性 特征 〈 输 入 或 预测 变量 ) 来 预测 














BUB: pi 表示 特征 x 的 








FP 可 以 预测 销量 的 模型 ,我 们 需 

















o By te HFA 





Hy 的 学 习 效果 。 











网 如 ， 若 Bi = 0.04， 则 意味 着 在 











电视 广告 上 额外 花费 的 100 美元 与 增加 4 件 销量 相关 联 。 接 下 来 ,我 们 看 看 如 何 学 习 


这 些 系数 。 


(1) 学 习 模 型 参数 


为 了 评估 模型 的 系数 ， 这 里 需要 / 
际 销量 类 似 的 答案 。 为 了 得 到 最 拟 合 数据 的 回 
旧名 为 最 小 二 乘 的 标准 。 





归 线 ， 这 里 使 月 




















] 一 条 回 








我 们 需 


- 








要 找到 一 条 线 ， 以 最 小 化 预测 值 与 观察 值 〈 实 



























































归 线 来 拟 合 数据 ， 该 回 





HI 
Bj 





归 线 可 以 给 出 和 实 





预测 值 


SS => 0, -x) 





















































际 值 ) 之 间 的 差异 。 换 句 话说， 需要 找到 一 条 回 7 XE 
归 线 ， 该 回归 线 使 残 差 平方 和 (sum of squared (预测 值 和 观察 值 之 间 的 差异 

= E Al 2.2 用 回归 线 拟 合 数据 点 (电视 
residuals) 最 小 ， 如 图 2.2 所 示 。 广告 的 样本 )， 使 王莽 平 方 和 最 小 

以 下 是 图 2.2 中 存在 的 一 些 量 。 

e 黑 点 表示 x EBW E) My KE) 的 观察 值 。 








e 虚线 表示 最 小 二 乘 线 〈 回 归 线 )。 
e 实 线 表示 残 差 ， 即 预测 值 与 观察 值 〈 实 际 值 ) 之 间 的 差异 。 
以 下 是 系数 与 最 小 二 乘 线 〈 回 归 线 ) 的 关系 。 
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2.4 线性 回归 模型 


e 是 截 距 ， 当 x=0 时 ， 它 等 于 的 值 。 























e ENZ, CAF y 的 变化 量 除 以 x 的 | Came : 
Bo 
图 2.3 给 出 了 图 形 化 的 解释 。 | 3 











现在 继续 使 用 Statsmodels 来 学 2j 这 些 图 2.3 最 小 二 乘 线 与 模型 系数 之 间 的 关系 





To use the formula notation below, we need to import the module like the following 
import statsmodels.formula.api as smf 

create a fitted model in one line of code(which will represent the least 
squares line) 

im = smf.ols(formula-'sales ~ TV', data-advertising data) .fit() 


show the trained model coefficients 


lm.params 
^ 
输出 如 下 。 
ntercept 7.032594 
TV 0.047537 


dtype: float64 

















正如 之 前 所 提 到 的 ， 线 性 回归 模型 的 一 个 优点 是 易于 解释 ， 因 此 接 下 来 继续 解释 
模型 。 

(2) 解释 模型 系数 
下 面 解 释 模 型 系数 ， 如 电视 广告 系数 〔B1)。 输 入 特征 (电视 广告 》 支 出 增加 1 个 单 


位 与 销量 (输出 ) 增加 0.047 537 个 单位 有 关 。 换 句 话说 ， 另 外 花费 在 电视 广告 上 的 100 
美元 与 销量 中 增加 的 4.7537 件 相关 。 


电视 广告 数据 构建 学 习 模 型 的 目标 是 预测 未 知 数 据 对 应 的 销 
将 讲解 基于 已 知 的 电视 广告 支出 如 何 使 用 学 习 模 型 来 预测 未 知 的 销 直 
(3) 使 用 模型 来 预测 
假设 有 一 些 之 前 未 见 过 的 电视 广告 支出 数据 ， 现 在 我 们 想 知 道 它们 对 公司 销量 的 影 
响 。 我 们 使 用 学 习 模 型 可 以 完成 这 个 任务 ， 假 如 我 们 想 知 道 5 万 美元 的 电视 广告 能 增加 
多 少 销量 。 


























































































































。 因 此 ， 接 下 来 
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这 里 用 学 习 的 模型 系数 做 出 这 样 一 个 计 
y=7.032 594 + 0.047 537x50 





执行 以 下 代码 。 


# manually calculating the increase in the sales based on $50k 
7.032594 + 0.047537*50000 


输出 结果 如 下 。 


9409.444 


` 


这 里 也 可 以 使 用 Statsmodels 来 做 预测 。 首 先 ， 需 要 在 pandas DataFrame 中 输入 电视 
广告 费用 ， 因 为 它 是 Statsmodels 接口 的 输入 参数 。 


























# creating a Pandas DataFrame to match Statsmodels interface expectations 
new_TVAdSpending = pd.DataFrame({'TV': [50000]}) 
new_TVAdSpending. head () 


输出 结果 如 下 。 


TV 
0 50000 


现在 ， 可 以 继续 使 用 预测 函数 来 预测 销量 。 























# use the model to make predictions on a new value 


preds = lm.predict (new_TVAdSpending) 


输出 结果 如 下 。 

array([ 9.40942557]) 

下 面 绘制 学 习 好 的 最 小 二 乘 线 。 
predict value of x). 


因此 ， 计 算 电 视 广 告 费 用 的 最 小 值 和 最 大 值 。 





绘制 一 条 线 需 要 两 个 点 ， 每 个 点 表示 为 (x， 

















# create a DataFrame with the minimum and maximum values of TV 
X min max = pd.DataFrame(('TV': [advertising data.TV.min(), 
advertising data.TV.max()]}) 


X min max.head() 


—— f ypj 


2.1 线性 回归 模型 








输出 结果 如 下 。 
TV 
0 0.7 
1 296.4 









































分 别 计算 这 两 个 值 的 预测 值 。 
# predictions for X min and max values 


predictions = lm.predict(X min max) 


predictions 
输出 结果 如 下 。 


array([7.0658692, 21.12245377]) 














现在 ， 我 们 绘制 实际 数据 ， 然 后 用 最 小 二 乘法 线 进 行 拟 合 。 





# plotting the acutal observed data 

advertising data.plot(kind='scatter', x='TV', y='sales') 
#plotting the least squares line 

plt.plot(new TVAdSpending, preds, c='red', linewidth=2) 


输出 结果 如 图 2.4 所 示 。 


Sales 











2.4 实际 数据 和 最 小 二 乘 线 








这 个 例子 的 扩展 和 进一步 的 解释 将 在 第 3 章 中 详细 介绍 。 
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2.2 ”线性 分 类 模型 














本 节 将 解释 逻辑 回归 ， 它 是 广泛 使 用 的 分 类 算法 之 一 。 











什么 是 逻辑 回归 ? 逻辑 回归 的 简单 定义 是 它 是 一 种 涉及 线性 判别 式 的 分 类 算法 。 
下 面 将 用 两 点 阐明 这 
e 与 线性 回归 不 同 ， 逻 和 辑 回 归 不 会 估计 给 定 一 组 特征 或 输入 变量 的 数值 变量 的 值 。 

相反 , 逻辑 回归 算法 的 输出 是 给 定 
在 这 种 类 型 



































二 元 分 类 问题 ， 








e 正如 读者 可 能 知道 的 那样 , 月 























一 定义 。 




































































样本 观察 值 属 于 特定 类 别 的 概率 。 假设 有 一 个 





























的 问题 中 ， 输 出 变量 只 有 两 类 ， 例 如 患 病 或 未 患 病 。 
因此 ， 若 某 个 样本 属于 患 病 类 别 的 概率 是 Pp。，， 那 么 某 个 样本 属于 未 患 病 类 别 的 
概率 是 Pl=1 - Pu。 因此， 逻辑 回归 算法 的 输出 总 是 介 于 0 和 1。 






































日 于 回归 或 分 类 的 学 习 算 法 有 很 多 , 并 且 每 种 学 习 算 











法 本 身 都 有 关于 数据 样本 的 假设 .选择 适合 数据 的 学 习 算 法 的 能 力 将 随 着 实践 和 
对 该 主题 的 深入 理解 而 逐渐 形成 。 逻辑 回归 算法 的 中 心 假设 是 输入 (特征 ) 空间 
可 以 由 一 个 线性 平面 分 成 两 个 区 域 (每 个 类 别 一 个 区 


域 )， 如 果 有 两 个 特征 ， 那 么 这 个 线性 平面 是 一 条 分 


界线 ;如 果 有 3 个 特征 ， 那 么 这 个 线性 平面 就 是 分 























界面 ， 依 次 类 推 。 



































为 线性 判别 式 ， 





















































这 个 边界 的 位 置 和 方向 将 由 具体 
的 数据 决定 。 如 果 数 据 满足 线性 可 分 这 个 约束 条 件 ， 
就 可 以 用 线性 平面 将 每 个 类 划分 到 相对 应 的 区 域 中 。 
图 2.5 说 明了 这 个 假设 。 在 图 2.5 F, WA CRIE) 
有 3 个 维度 ， 以 及 两 个 可 能 的 类 别 : 患 病 〈 深 灰色 ) 图 2.5 划分 两 个 类 别 的 


























线性 分 界面 


























和 非 患 病 (黑色 )。 将 两 个 区 域 相互 分 开 的 分 界面 称 
这 是 因为 它 是 线性 的 且 有 助 于 模型 区 分 属于 不 同类 别 的 样本 。 



































如 果 数 据 样本 不 是 线性 可 分 的 ， 那 么 可 以 通过 添加 更 多 的 输入 特征 来 将 数据 转换 到 








更 高 维 的 空间 来 实现 。 


分 类 与 逻辑 回归 





我 们 已 经 学 习 了 如 何 将 连续 量 《〈 例 如 
ME Cola, FAL. DH 















































和 报纸 广告 方 




















， 电 视 广 告 费用 对 公司 销量 的 影响 》 预测 为 输 








看 的 费用 ) 的 线性 函数 。 但 对 于 其 他 任务 ， 输 出 
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2.2 线性 分 类 模型 














是 一 种 分 类 问题 ， 我 们 需要 另 种 学 习 算 
的 数学 分 析 ， 这 是 一 种 用 于 分 类 任务 的 学 








并 不 会 是 连续 量 。 例 如 ， 预 测 某 人 是 否 患 病 
法 来 执行 此 操作 。 本 节 将 深入 研究 逻辑 回归 
习 算 法 。 
在 线性 回归 中 ， 我 们 尝试 使 用 线性 模型 函数 y= ho(x) = O'x 来 预测 该 数据 集中 第 i 
个 样本 x 的 输出 变量 y 的 值 。 但 对 于 预测 二 元 标签 0 € {0,1}) 等 分 类 任务 来 说 ， 这 并 
不 是 一 个 很 好 的 解决 方案 。 

逻辑 回归 是 用 于 分 类 任务 的 众多 学 习 算 法 之 一 ， 使 用 不 同 的 假设 类 ， 我 们 可 以 预测 
特定 样本 属于 第 1 个 类 的 概率 以 及 它 属 于 第 0 个 类 的 概率 。 因 此 ， 在 逻辑 回归 中 ， 我 们 
将 尝试 学 习 以 下 函数 。 









































































































































PO «M3 -m= gr e 


P(y =0|x) $1- P(y 21|x) 21 h(x) 
函数 (2)= — ERA sigmoid 函数 或 logistic 函数 ， 它 将 Orx IAEA 
+ exp(-z) 

国定 范围 [0,1]， 如 图 2.6 所 示 。 因 为 把 值 压缩 在 [0,1]， 
Fr EA RT DAA hy Go) 解释 为 概率 。 

读者 的 目标 是 求 9 的 值 , 使 得 当 输 入 样本 x 属于 第 
1 类 时 ， 概 率 P(y=1|x)= h(x) 比较 大 ; Hx 属于 第 
0 类 时 ,概率 P(y=0|x)= 有 (x) 较 大 。 
因此 ， 假 设 有 一 组 训练 样本 及 其 对 应 的 二 分 类 
标签 {(x,y):i=1,…,m} ,读者 需要 做 的 是 最 小 化 图 2.6 sigmoid 函数 的 形状 
下 面 的 代价 函数 ， 它 用 于 衡量 给 定 思 的 好 坏 。 
























































































































































J(0) = ->， (y? log, (h; (x®)) i ü EY y?) log, (1 = h, (x'?))) 











注意 ， 对 于 每 个 训练 样本 ， 方 程 的 两 个 项 中 ， 只 有 一 项 非 零 〈 根 据 标 签 y^ 的 值 是 
BA 0)。 当 y=1 时 ， 最 小 化 模型 代价 函数 需要 使 h(x”) 尽量 大 ; 24 y? =0 时 ， 最 小 
化 模型 代价 函数 需要 使 1 — hy (x) BEEK 

现在 ， 用 一 个 代价 函数 来 计算 给 定 的 假设 及 拟 合 训练 样本 的 程度 。 我 们 可 以 使 用 优化 
法 来 最 小 化 7(0) ， 并 求 参 数 9 的 最 优 解 来 学 习 如 何 对 训练 样本 进行 分 类 。 完 成 此 操作 后 ， 
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我 们 就 可 以 使 用 这 些 参 数 判 断 这 两 个 类 标签 (0 和 1) 中 哪 一 个 最 有 可 能 ， 从 而 对 新 样本 进 

















行 分 类 。 如 果 P(y=1|) Pl(y=01x)， 那 么 输出 0; 








义 为 0.5， 当 及 (x) > 0.5 时 输出 1， 和 否则 ， 输 出 0。 

















为 了 最 小 化 代价 函数 /O， 我 们 可 以 使 









































长 率 。 然 后 ， 可 以 从 相反 的 方向 来 求 出 这 个 函 


























以 下 结果 。 











否则 ， 和 输出 1. HE, WOR BU ELE 




















优化 法 来 求 出 使 代价 函数 最 小 化 的 9 的 最 
佳 值 。 因 此 ， 我 们 可 以 使 用 名 为 梯度 的 微 积分 工具 ， 
数 的 最 小 值 。 例 如 ，7(O) 的 梯度 由 Fo7(O) 
表示 ， 这 表示 取 相 对 于 模型 参数 的 代价 函数 的 梯度 。 因 此 ， 需 要 提供 一 个 函数 来 计算 任 
E 0 f IO) 和 V7(9)。 如 果 推 导 以 上 的 代价 函数 7(9) 相对 于 90; 的 梯度 或 导数 ， 将 得 到 

















该 工具 试图 求 出 成 本 函数 的 最 大 增 























8/() wow (0) — y 
a6, = EP 669-9) 


将 它 写 成 向 量 形 式 ， 如 下 所 示 。 


V4J(8) = Dx? (hx?) y?) 

















现在 ， 我 们 从 数学 上 了 解 了 逻辑 回归 ， 接 下 来 继续 使 用 这 种 新 的 学 习 方法 来 解决 分 


类 任务 。 
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“泰坦 尼克 号 ”沉船 是 历史 上 最 莫 惨 的 事件 之 i 
名 船员 有 死亡。 在 本 节 中 ， 我 们 将 使 用 数据 科学 来 预测 乘客 是 否 能 在 这 场 悲 剧 中 生存 ， 然 



































。 这 起 事件 导致 2224 名 乘客 和 1502 








后 根据 这 场 悲剧 的 实际 统计 数据 来 测试 这 个 模型 的 性 能 。 


要 开始 学 习 “ 泰 坦 尼克 号 ”示例 ， 我 们 需要 做 以 下 工作 。 


1) 从 GitHub 网 站 下 载 ML_ Titanic ZIP 格式 的 存储 库 或 者 在 命令 行 窗 口中 执行 命令 
Git clone 命令 复制 GitHub 网 站 中 的 ML Titanic.git. 











2) 安装 virtualenv。 
3) 导航 到 解压 缩 或 复制 存储 库 的 目录 ， 























并 使 














4) 使 用 source ml titanic/bin/activate 激活 环境 。 





5) 安装 依赖 的 包 pip install -r requirements.txt。 














] virtualenv ml titanic 创建 虚拟 环境 。 


一 
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6) 在 命令 行 窗 口 或 者 终端 中 执行 ipython notebook。 
D 按照 本 章 中 的 示例 代码 进行 操作 。 
8) 当 结 束 操 作 后 ， 使 用 deactivate 关闭 虚拟 环境 。 


2.3.1 数据 处 理 和 可 视 化 

在 本 节 中 ， 我 们 将 要 做 一 些 数据 预 处 理 和 分 析 。 可 以 认为 数据 预 处 理 和 分 析 是 机 器 
学 习 中 最 重要 的 步 又 之 一 ， 也 可 以 认为 它 是 最 重要 的 步骤 ， 没 有 之 一 。 因 为 在 这 一 步 ， 
我 们 将 了 解 在 训练 过 程 一直 与 我 们 相伴 的 数据 。 此 外 ， 了 解 使 用 的 数据 后 ， 我 们 可 以 缩 
小 自己 的 候选 算法 集 ， 从 而 选择 最 优 的 算法 。 
首先 ， 导 入 需要 软件 包 。 



























































import matplotlib.pyplot as plt 


$matplotlib inline 


from statsmodels.nonparametric.kde import KDEUnivariate 
from statsmodels.nonparametric import smoothers lowess 
from pandas import Series, DataFrame 

from patsy import dmatrices 


from sklearn import datasets, svms 


import numpy as np 
import pandas as pd 


import statsmodels.api as sm 


from scipy import stats 
stats.chisqprob = lambda chisq, df: stats.chi2.sf(chisq, df) 

















] pandas 读 取 “泰坦 尼 殉 号 ”中 乘客 和 船员 的 数据 。 











titanic data = pd.read csv("data/titanic train.csv") 


接 下 来 ， 检 查 数据 集 的 维度 ， 查 看 样本 的 数量 和 描述 数据 集 的 解释 性 特征 的 个 数 。 





























titanic data.shape 


Output: 
(891, 12) 


EA 891 个 数据 样本 以 及 12 个 解释 性 特征 来 描述 此 记录 。 
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list(titanic data) 


Output: 
['PassengerId', 
'Survived', 
'Pclass', 
'Name', 
'Sex', 
'Age', 
'SibSp', 
'Parch', 
'Ticket', 
'Fare', 
'Cabin', 


'Embarked'] 


接 下 来 ， 查 看 样本 的 详细 信息 。 











titanic_data[500:510] 


输出 结果 如 图 2.7 所 示 。 








Passengerld Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 
500 501 0 3 Calic, Mr. Petar male 17.0 0 0 315086 8.6625 NaN S 
501 502 o 3 Canavan, Miss. Mary female 21.0 0 0 364846 7.7500 NaN Q 
502 503 0 3 O'Sullivan, Miss. Bridget Mary female NaN 0 0 330909 7.6292 NaN Q 
503 504 0 3 Laitinen, Miss. Kristina Sofia female 37.0 0 4135 9.5875 NaN S 
504 505 1 1 Maioni, Miss. Roberta female 16.0 0 0 110152 86.5000 B79 S 
505 506 0 1 Penasco y Castellana, Mr. Victor de Satode male 18.0 1 0 PC 17758 108.9000 C65 C 
506 507 1 2 Quick, Mrs. Frederick Charles (Jane Richards) female 33.0 0 2 26360 26.0000 NaN S 
507 508 1 1 Bradley, Mr. George ("George Arthur Brayton") male NaN 0 0 111427 26.5500 NaN S 
508 509 0 3 Olsen, Mr. Henry Margido = male 28.0 0 0 C4001 225250 NaN S 
509 510 1 3 Lang, Mr. Fang male 26.0 0 0 1601 56.4958 NaN S 














图 2.7 “泰坦 尼克 号 ”中 的 样本 








现在 ， 我 们 有 一 个 Pandas DataFrame， 它 包含 需要 分 析 的 sol 名 乘客 的 信息 。 
DataFrame 的 列表 示 每 个 乘客 /船员 的 解释 性 特征 ， 例 如 姓名 、 人 性别 或 年 龄 。 


其 中 一 些 解释 性 功能 是 完整 的 ,没有 任何 缺失 值 ， 例 如 幸存 特征 ， 它 有 891 个 条 目 。 
其 他 解释 性 特征 包含 缺失 值 ， 例 如 年 龄 特征 ， 它 只 有 714 个 条 目 。DataFrame 中 的 任何 缺 
失 值 都 表示 为 NaN。 
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如 果 我 们 观察 所 有 的 数据 集 特征 ， 会 发 现 Ticket 和 Cabin 特征 有 许多 缺失 值 (NaN), 
因此 它们 不 会 为 我 们 的 分 析 贡 献 很 多 力量 。 为 了 解决 这 个 问题 ， 我 们 将 从 DataFrame 中 
删除 它们 。 


使 用 以 下 代码 从 DataFrame 中 删除 Ticket 和 Cabin 特征 。 


























T 








titanic data = titanic data.drop(['Ticket','Cabin'], axis=1) 


AAR HE, BSE SL REL, EOS T RSI SCRE Ey BEA 
些 缺 失 值 。 在 这 个 特定 的 问题 中 ， 这 次 我 们 选择 删除 它们 。 


使 用 以 下 代码 来 删除 所 有 其 他 特征 中 的 所 有 NaN 值 






































= 












































o 











titanic data = titanic data.dropna() 

现在 ， 我 们 有 了 一 个 完善 的 数据 集 ， 可 以 用 它 来 进行 数据 分 析 了 。 如 果 尝 试 在 不 删 
除 Ticket 和 Cabin 特征 列表 的 情况 下 删除 所 有 NaN， 会 发 现 大 部 分 数据 集 都 会 被 删除 ， 
因为 .dropna() 方 法 会 从 DataFrame 中 删除 所 有 满足 条 件 的 ， 即 使 某 一 个 特征 中 只 有 一 个 
NaN. 


下 面 可 视 化 数据 来 查看 一 些 特征 的 分 布 并 理解 解释 性 特征 之 间 的 关系 。 
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# declaring graph parameters 

fig = plt.figure(figsize-(18,9) 

alpha-alpha scatterplot = 0.3 

alpha bar chart = 0.55 

Defining a grid of subplots to contain all the figures 

axl = plt.subplot2grid((2,3), (0,0) 

Add the first bar plot which represents the count of people who survived vs 
not survived. 

titanic data.Survived.value counts().plot(kind-'bar', alpha-alpha bar chart) 
Adding margins to the plot 

axl.set xlim(-1, 2) 

Adding bar plot title 








[0] 


lt.title ("Distribution of Survival, (1 = Survived)") 
lt.subplot2grid((2,3), (0,1) 


o 


plt.scatter(titanic data.Survived, titanic data.Age, alpha-alpha scatterplot) 
# Setting the value of the y label (age) 

plt.ylabel("Age") 

# formatting the grid 

plt.grid(b=True, which='major', axis-'y') 








[0] 


lt.title ("Survival by Age, (1 = Survived)") 
ax3 = plt.subplot2grid((2,3),(0,2)) 
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titanic data.Pclass.value counts() .plot (kind="barh", alpha=alpha bar chart) 
ax3.set ylim(-1, len(titanic data.Pclass.value counts())) 

plt.title("Class Distribution") 

plt.subplot2grid((2,3),(1,0), colspan-2) 

# plotting kernel density estimate of the subse of the lst class passenger's age 


titanic data.Age[titanic data.Pclass == 1].plot(kind='kde') 
titanic data.Age[titanic data.Pclass == 2].plot(kind='kde') 
titanic data.Age[titanic data.Pclass == 3].plot(kind='kde') 


# Adding x label (age) to the plot 

plt.xlabel ("Age") 

plt.title("Age Distribution within classes") 

# Add legend to the plot. 

plt.legend(('lst Class', '2nd Class','3rd Class'),loc-'best') 

ax5 = plt.subplot2grid((2,3),(1,2)) 

titanic data.Embarked.value counts().plot(kind-'bar', alpha-alpha bar chart) 
ax5b.set xlim(-1, len(titanic data.Embarked.value counts())) 





plt.title("Passengers per boarding location") 


样本 可 视 化 结果 如 图 2.8 所 示 。 




















Distribution of Survival, (1 = Survived) Survival by Age, (1 = Survived) Class Distribution 
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图 2.8 “泰坦 尼克 号 ”数据 样本 的 初步 可 视 化 


正如 前 面 所 提 到 的 ， 这 种 分 析 的 目的 是 根据 可 用 的 特征 〈 如 pclass、sex、age 和 fare 
price) 来 预测 特定 乘客 是 否 能 够 在 这 次 事故 中 生存 。 因 此 ， 措 清楚 我 们 是 否 能 够 更 好 地 
了 解 那些 幸存 和 死亡 的 乘客 。 


首先 ， 绘 制 一 个 条 形 图 ， 以 查看 每 个 类 别 〈 幸 存 / 死 亡 ) 中 的 观察 数量 。 





























plt.figure(figsize-(6,4)) 
fig, ax = plt.subplots() 


titanic data.Survived.value counts().plot(kind-'barh', color="blue", alpha-.65) 
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ax.set ylim(-1, len(titanic_data.Survived.value_counts())) 


plt.title("Breakdown of survivals(0 = Died, 1 = Survived)") 
输出 结果 如 图 2.9 所 示 。 


Breakdown of survivals(0 = Died, 1 = Survived) 








0 50 100 150 200 250 300 350 400 


图 2.9 生存 状况 





通过 按 性 别 细 分 图 2.9， 我 们 可 以 更 好 地 理解 数据 。 


fig = plt.figure(figsize=(18,6)) 








#Plotting gender based analysis for the survivals. 

male = titanic data.Survived[titanic data.Sex == 'male'].value counts().sort index() 
female = titanic data.Survived[titanic data.Sex == 'female'].value counts(). 
sort index() 

axl = fig.add subplot (121) 

male.plot(kind-'barh',label-'Male', alpha=0.55) 

female.plot (kind='barh', color='#FA2379',label='Female', alpha=0.55) 
plt.title("Gender analysis of survivals (raw value counts) "); 
plt.legend(loc='best') 

axl.set ylim(-1, 2) 

ax2 = fig.add subplot (122) 

(male/float (male.sum())).plot(kind='barh',label='Male', alpha=0.55) 
(female/float(female.sum())).plot(kind-'barh', 
color='#FA2379',label='Female', alpha=0.55) 

plt.title ("Gender analysis of survivals") plt.legend(loc='best') 

ax2.set ylim(-1, 2) 


按 类 别 细 分 后 的 数据 如 图 2.10 所 示 。 

现在 ， 我 们 有 了 关于 两 个 可 能 类 (生存 和 死亡 ) 的 更 多 信息 。 数 据 分 析 和 可 视 化 步 
又 是 必要 的 ， 因 为 它 可 以 让 我 们 更 深入 地 了 解数 据 结构 ， 并 帮助 我 们 为 问题 选择 合适 的 
学 习 算法 。 如 你 所 见 ， 我 们 从 非常 基本 的 图 开始 ， 然 后 增加 图 的 复杂 性 以 发 现 关 于 正在 
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使 用 的 数据 的 更 多 信息 。 


Gender analysis of survivals (raw value counts) Gender analysis of survivals 
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图 2.10 按 性 别 特征 进一步 细 分 “泰坦 尼克 号 ”数据 


2.3.2 ”数据 分 析 一 一 监督 机 器 学 习 


节 则 在 预测 幸存 者 ， 因 此 ， 结 果 将 是 生存 或 死亡 ， 这 是 一 个 二 元 分 类 问题 : 其 中 
只 有 两 个 可 能 的 类 。 
有 很 多 学 习 算 法 可 以 用 于 二 元 分 类 问题 ， 逻 辑 回 归 就 是 其 中 之 一 。 正 如 维基 百科 所 
解释 的 : 
在 统计 学 中 ， 逻 辑 回归 是 基于 一 个 或 多 个 预测 变量 预测 可 分 类 因 变 量 的 结 
果 的 一 种 回归 分 析 方 法 〈 因 变量 可 以 取 有 限 数目 的 值 ， 其 大 小 是 没有 意义 的 ， 
但 大 小 的 排序 可 能 是 有 意义 的 ,也 可 能 是 没有 意义 的 )。 也 就 是 说 ,逻辑 回归 用 
于 估计 定性 输出 模型 中 参数 的 实际 值 。 描 述 单个 试验 的 可 能 结果 的 概率 可 以 建 
模 为 一 个 关于 解释 性 (预测 ) Exe ESSE. 943a" «8T SR 
变量 是 二 元 的 问题 ， 也 就 是 说 ， 可 用 类 别 的 数量 是 两 个 ， 而 两 个 以 上 类 别 的 问 
MAA SRE; 如 果 类 别 是 有 序 的 ， 则 称 为 有 序 逻 辑 回 归 。 交 辑 回归 的 
目的 是 预测 分 类 因 变 量 与 一 个 或 多 个 自 变 量 之 间 的 关系 ， 这 些 变量 通常 〈 但 不 
一 定 ) 是 连续 的 ， 但 是 可 以 使 用 概率 值 作为 因 变 量 的 预测 值 。 因 此 ， 解 决 这 一 
类 问题 的 时 候 可 以 使 用 和 概率 回归 计算 相似 的 方法 。 


为 了 使 用 逻辑 回归 ， 我 们 需要 创建 一 个 公式 ， 以 告诉 模型 特征 /输入 的 类 型 。 










































































# model formula 


# here the ~ sign is an = sign, and the features of our dataset 


$$ f ypj 
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# are written as a formula to predict survived. The C() lets our 

# regression know that those variables are categorical. 

formula = 'Survived ~ C(Pclass) + C(Sex) + Age + SibSp + C(Embarked) ' 
# create a results dictionary to hold our regression results for easy 
analysis later 

results = {} 

create a regression friendly dataframe using patsy's dmatrices function 
y,X = dmatrices(formula, data-titanic data, return_type='dataframe') 
instantiate our model 

model = sm.Logit(y,x) 

fit our model to the training data 


res = model.fit() 








save the result for outputing predictions later 
results['Logit'] = [res, formula] 

res.summary () 

Output: 

Optimization terminated successfully. 

Current function value: 0.444388 


Iterations 6 


输出 结果 如 图 2.11 所 示 。 








Logit Regression Results 


Dep. Variable: Survived No. Observations: 712 
Model: Logit Dt Residuals: 704 
Method: MLE Df Model: "i 


Date: Sun,20 Dec 2015 Pseudo R-squ.: 0.3414 
Time: 11:27:33 Log-Likelihood: -316.40 
converged: True LL-Null: -480.45 


LLR p-value: 5.992e-67 


coef stderr z P>lz| [95.0% Conf. Int] 
Intercept 4.5423 0.474 9.583 0.000 3.613 5471 
C(Pclass)[T2] -1.2673 0.299 -4.245 0.000 -1.852 -0.682 


C(Pclass)[T3] -2.4966 0.296  -8.422 0.000 -3.078 -1.916 


C(Sex)[Lmale] -2.6239 0.218 -12.060 0.000 -3.050 -2.197 
C(Embarked)[T.Q] -0.8351 0.597  -1.398 0.162 -2.006 0.335 
C(Embarked)[T.S] -0.4254 0.271  -1.572 0.116 -0.956 0.105 


Age -0.0436 0.008  -5.264 0.000 -0.060 -0.027 


SibSp -0.3697 0.123  -3.004 0.003 -0.611 -0.129 














DS 


2.1 逻辑 回归 的 结果 
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下 面 绘制 模型 与 实际 模型 的 预测 值 与 残 差 ( 即 目标 变量 的 实际 值 与 预测 值 之 间 的 








差 值 )。 














# Plot Predictions Vs Actual 


plt.figure (figsize=(18,4)) 
plt.subplot (121, axisbg="#DBDBDB") 


# generate predictions from our fitted model 


ypred = res.predict (x) 


plt.plot(x.index, ypred, 'bo', x.index, y, 'mo', alpha=.25) 


plt.grid(color='white', linestyle='dashed') 


plt.title 


('Logit predictions, Blue: \nFitted/predicted values: Red') 


# Residuals 


ax2 = plt 


.subplot (122, axisbg="#DBDBDB") 


plt.plot(res.resid dev, 'r-') 


plt.grid(color-'white', linestyle='dashed') 


ax2.set xlim(-1, len(res.resid dev)) 


plt.title 


('Logit Residuals') 


绘制 结果 如 图 2.12 所 示 。 





Logit predictions, Blue: 
Fitted/predicted values: Red Logit Residuals 








现在 ， 我 
些 分 析 和 探讨 























图 2.12 更 深入 地 了 解 逻 辑 
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归 模型 





























们 已 经 构建 了 逻辑 回归 模型 ， 在 此 之 前 ， 我 们 已 经 对 数据 集 进行 了 一 
。 前 面 的 例子 显示 了 构建 机 器 学 习 解 决 方案 的 一 般 流程 。 





很 多 时 候 ， 从 业者 会 陷入 一 些 技术 陷阱 ， 因 为 他 们 缺乏 对 机 器 学 习 概 念 的 理解 。 例 


如 , 有 人 可 能 在 








E 测 试 集中 获得 99% 的 准确 性 , 然后 在 没有 对 数据 中 类 的 分 布 进行 调查 ( 例 











如 有 多 少 样本 是 负数 以 及 有 多 少 样本 是 正 数 ) 的 情况 下 就 部 署 了 模型 。 


为 了 突出 其 中 的 一 些 概 念 , 并 区 分 我 们 需要 注意 的 以 及 那些 应 该 真正 关心 的 误差 ， 下 
面 将 介绍 误差 分 析 。 














$$ pj 


2.4 不 同类 型 的 误差 解析 


在 机 器 学 习 中 ， 有 两 种 类 型 的 误差 ， 作 为 数据 科学 的 新 手 ， 我 们 需要 了 解 它们 
之 间 的 关键 差异 。 如 果 最 终 将 误差 类 型 的 损失 函数 最 小 化 ， 那 么 整个 学 习 系统 将 是 
无 用 的 ， 我 们 将 无 法 在 实践 中 在 未 见 过 的 数据 上 使 用 它 。 为 了 尽量 减少 从 业者 对 这 
两 类 误差 的 这 种 误解 ， 以 下 两 节 将 对 它们 进行 解释 。 


2.5 表现 ( 训练 集 ) 误 


表现 误差 是 我 们 面临 的 第 一 种 类 型 的 误差 。 通 过 训练 得 到 此 类 误差 的 较 小 值 并 不 意 
味 着 读者 的 模型 将 在 未 知 数据 上 会 更 好 地 分 类 ( 泛 化 )。 为 了 更 好 地 理解 这 种 类 型 的 误差 ， 
这 里 将 给 出 一 个 有 关 分 类 问题 的 简单 例子 。 在 课堂 上 解决 问题 的 目的 不 是 要 在 考试 中 再 
次 解决 同样 的 问题 ， 而 是 为 了 能 够 解决 其 他 问题 ， 这 些 问 题 不 一 定 与 我 们 在 课堂 上 解决 
的 问题 类 似 。 考 试题 目 可 能 来 自 同一 系列 的 课 党 练习， 但 不 一 定 完全 相同 。 

表现 误差 是 训练 模型 在 真实 结果 /输出 已 知 的 训练 集 上 表现 的 能 力 。 如 果 设 法 在 训练 集 
上 实现 零 错误 ， 那 么 对 读者 来 说 ， 这 表明 模型 《大 部 分 情况 下 ) 对 于 之 前 没 见 过 的 数据 将 不 
能 很 好 地 分 类 〈 不 会 泛 化 )， 另 一 方面 ， 在 数据 科学 中 将 训练 集 作 为 学 习 算 法 的 基础 知识 ， 
目的 是 很 好 地 处 理 未 来 看 不 见 的 数据 。 
在 图 2.13 中 ， 上 方 曲线 表示 表现 误差 。 每 次 增加 模型 记忆 事物 的 能 力 〈 例 如 ， 通 过 
增加 解释 性 特征 的 数量 来 增加 模型 复杂 性 ) 时 , 我 们 都 会 发 现 这 个 表现 误差 将 接近 于 零 。 
可 以 证 明 ， 如 果 你 有 与 样本 一 样 多 的 特征 ， 那 么 表现 误差 将 为 零 。 























































































































































































































































预测 误差 


测试 样本 





Pd 
训练 样本 





低 高 
模型 复杂 度 


图 2.13 ”表现 误差 〈 粗 黑 曲线 ) 和 泛 化 /真实 误差 〈 浅 灰色 曲线 ) 
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2.6 


泛 化 /真实 误差 


数据 建 模 实战 一 一 “泰坦 尼克 号 ”示例 











泛 化 /真实 误差 是 数据 科学 








系统 的 整体 目 
在 训练 阶段 使 


的 是 
的 样本 中 生 






































解决 的 问题 类 似 。 因 
阶段 学 到 的 技能 〈 参 数 ) 的 能 














好 地 进行 判断 。 妇 
么 可 以 将 泛 化 误差 视 为 解决 考试 问题 的 能 


PF 的 第 二 

















种 误差 类 型 ， 也 是 更 重要 的 误差 类 型 。 构 建 学 习 
能 够 在 测试 集 上 获得 较 小 的 泛 化 误差 。 换 句 话说， 使 模型 在 一 组 尚未 



































此 ， 泛 化 性 能 是 为 了 正确 











在 图 2.13 F, RKE 
误差 将 会 减 
误差 的 泛 化 能 力 不 再 

本 节 的 主 由 是 尽 























增加 的 这 
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2.7 总 结 


1 线 表示 泛 化 误差 。 可 以 看 到 ， 
\， 直 到 模型 失去 降低 泛 化 误差 的 能 力 ， 

















[I 果 我 们 仍然 考虑 2.5 节 中 的 
， 这 些 问题 不 一 定 与 我 们 在 校 学 习 的 学 科 中 
预测 未 知 数据 的 结果 /输出 模型 使 用 在 训练 





课程 场景 ， 导 























随 着 模型 人 























部 分 1 








1 线 ， 称 为 过 拟 合 曲线 。 





可 能 地 减 小 泛 化 误差 。 














线性 模型 是 一 个 非常 强大 的 工 
作 初 始 学 习 算 法 。 理 解 线性 模型 将 











的 模型 。 

















\， 如 果 我 们 的 数据 与 其 假设 相 
帮助 读者 理解 将 线性 模型 作为 基础 构件 的 更 为 复杂 
































接 下 来 ， 我 们 将 继续 使 用 
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评估 模型 。 模 型 复杂 性 是 一 个 
化 能 力 ， 误 用 它 会 导致 过 度 把 


bat 











HEHE” RIEN 
非常 强大 的 工具 ， 读 者 需要 谨慎 


合 问 题 。 











EA 


杂 性 的 增加 ， 泛 化 





并 且 泛 化 误差 不 再 减 小 。 导 致 泛 化 


匹配 ， 可 以 将 它 用 























F 细 地 解析 模型 的 复杂 性 以 及 如 何 





























地 操作 它 以 增强 模型 的 泛 
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第 3 章 
特征 工程 与 模型 复杂 性 一 一 
重 温 “泰坦 尼克 号 ”示例 























模型 复杂 性 与 评估 是 构建 一 个 成 功 的 数据 科学 系统 必 不 可 少 的 一 步 。 有 很 多 工具 可 
以 用 来 评估 和 选择 模型 。 本 章 将 讨论 一 些 可 以 帮助 读者 通过 添加 更 多 描述 性 特征 并 从 现 
有 数据 中 提取 有 用 信息 来 提高 数据 价值 的 工具 。 同 样 地 ， 本 章 也 会 讨论 与 最 优 数量 特征 
有 关 的 其 他 工具 ， 并 了 解 为 什么 “有 大 量 的 特征 却 只 有 很 少量 的 训练 样本 /观测 值 ” 会 是 






























































































































































一 个 问题 。 
以 下 是 本 章 主 要 阐述 的 主题 。 
e 特征 工程 。 
@ 维度 灾难 。 


























e 重 温 “泰坦 尼克 号 ”示例 
@ 偏差 -方差 分 解 。 
@ 学 习 可 见 性 。 











3.1 特征 工程 


特征 工程 是 有 助 于 提高 模型 性 能 的 关键 组 件 之 一 。 一 个 选择 了 正确 特征 的 简单 模型 往 
往 比 那些 选择 了 较 差 特征 的 复杂 模型 表现 得 更 好 。 读 者 可 以 将 特征 工程 视 为 决定 预测 模 
型 成 败 与 否 的 最 重要 的 一 步 。 如 果 对 数据 比较 了 解 ， 特 征 工程 将 会 变 得 更 加 容易 。 
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任何 使 用 机 器 学 习 来 解决 某 个 特定 问题 的 人 都 会 广泛 使 用 特征 工程 , 这 个 问题 就 是 : 











如 何 充分 地 利用 数据 样本 来 进行 模型 预测 ? 这 是 特征 工 
题 ， 数 据 科学 技能 的 成 功 往往 始 于 知 








Tit 


c 


Cy) 的 一 种 方案 或 规则 。 那 么 ， 什 么 是 特征 
建新 的 输入 变量 或 特征 Cu z2,…, z) 的 过 程 。 
征 应 该 对 模型 的 输出 有 贡献 并 且 与 之 相关 。 有 了 相关 领域 《如 市 场 营销 、 医 疗 等 领域 ) 
的 知识 后 ， 创 建 与 模型 输出 有 关 的 这 些 特 生 



















































































程 的 过 程 和 实践 所 要 解决 的 问 














道 如 何 更 好 地 表示 数据 。 


建 模 是 将 一 系列 特征 或 者 输入 变量 Qi, zz 转换 成 感 兴趣 的 输出 或 者 目标 
工程 呢 ? 它 是 从 现 有 输入 变量 (xi, xz Xn) El 





















































这 里 不 是 随便 创建 一 些 新 的 特征 ， 新 建 的 特 


将 是 





























者 在 此 过 程 中 与 一 些 领域 专家 相互 交 济 
相关 领域 知识 可 能 对 特征 工程 有 很 大 帮助 的 一 个 例子 就 是 , 给 定 一 组 输入 变量 /特征 





























(如 温度 、 风 速 和 云 量 百分比 ) 来 分 析 
个 新 的 名 为 overcast 的 二 元 特征 。 当 云 





Ls 特征 











一 个 很 容易 的 过 程 。 如 果 机 器 学 习 从 业 
工程 的 结果 将 会 变 得 更 好 。 


















































雨 的 可 能 性 。 对 于 这 个 具体 的 例子 ， 可 以 构建 一 
量 百分比 小 于 20% 时 ，overcast 的 值 为 1 或 者 no; 








否则 ，overcast 的 值 等 于 0 或 者 yes。 在 这 个 例子 中 ， 相 关 专 业 知识 对 于 指定 闵 值 或 截断 
































准确 。 














3.1.1 ”特征 工程 的 类 型 


作为 一 种 技术 ， 特 征 工程 有 3 









































1. 特征 选择 











特征 重要 性 是 根据 输入 变量 对 目标 / 输 H 
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PA Nik Pet RES I 
一 些 学 习 方 法 (如 决策 树 ) 








输入 变量 在 模 


将 这 


型 预测 
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百分比 是 十 分 重要 的 ， 选 择 的 输入 越 合 理 、 越 有 用 ， 最 终 模型 的 可 靠 性 越 高 ， 预 测 性 越 


' 重 要 的 子 类 别 。 作 为 一 名 深度 学 习 实践 者 ， 读 者 完 





全 可 以 自由 选择 其 中 一 种 或 者 以 某 种 方式 对 它们 进行 组 合 。 














FE 名 或 重要 愧 


变量 的 贡献 度 将 它们 排序 的 过 程 。 另 外 ， 可 
能 力 中 的 价值 来 对 它们 进行 排序 的 过 程 。 








E 作 为 其 内 部 过 程 的 一 部 分 。 大 





多 数 情况 下 ， 这 些 方法 使 用 箭 来 筛 掉 一 些 不 太 有 价值 的 变量 。 在 茶 些 情 况 下 ， 深 度 学 习 
实践 者 使 用 这 些 学 习 方 法 来 选择 最 重要 的 特征 ， 然 后 将 它们 输入 更 好 的 学 习 算 法 中 。 


























2. 降 维 





















































降 维 有 时 也 可 以 称 为 特征 提取 ， 它 是 一 种 将 现 有 输入 变量 组 合 为 一 组 数目 大 量 减 少 




















的 新 输入 变量 的 过 程 。 这 类 特征 工程 中 一 种 最 常用 的 方法 就 是 主 成 分 分 析 (Principle 
Component Analysis，PCA)， 该 算法 利用 数据 的 方差 来 生成 一 组 和 原始 输入 变量 不 太 相 
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3.1 特征 工程 














同 的 、 数 目 减 少 的 新 输入 变量 。 
3. 特征 构造 


特征 构造 是 一 种 常用 的 特征 工程 类 型 ， 大 家 在 讨论 特征 工程 时 经 常会 提 到 它 ， 该 
方法 是 手动 处 理 原始 数据 或 构建 新 特征 的 过 程 。 在 这 种 类 型 的 特征 工程 中 ， 领 域 知识 
对 于 从 现 有 特征 构建 其 他 新 特征 是 非常 有 帮助 的 。 像 其 他 特征 工程 技术 一 样 ， 特 征 构 
造 的 目的 也 是 增加 模型 的 预测 能 力 。 特 征 构 造 的 一 个 简单 例子 就 是 使 用 时 间 惟 来 产 4 
两 个 新 特征 ， 如 AM 和 PM， 这 对 于 区 分 白天 和 夜晚 很 有 帮助 。 同 样 ， 也 可 以 通过 计算 
噪声 特征 的 均值 然后 确定 给 定数 据 行 是 大 于 还 是 小 于 该 均值 ， 从 而 将 噪声 数值 特征 转 
换 为 更 简单 的 名 义 特 征 。 


3.1.2 Bin “RRS” TH 


在 本 节 中 ， 读 者 将 再 次 看 到 “泰坦 尼克 ”示例 ， 但 是 这 里 会 使 用 特征 工程 的 工具 从 
男 一 个 视角 解读 。 若 读者 跳 过 了 第 2 章 , 那么 这 里 再 说 明 一 下 , “泰坦 尼克 号 ”示例 是 Kaggle 
上 面 的 一 个 竞赛 ， 其 目的 是 预测 特定 乘客 是 否 "生还 。 
在 重新 看 这 个 例子 的 时 候 ， 我 们 将 会 使 用 到 scikit-learn 和 pandas 库 。 首 先 ， 看 训练 
集 和 测试 集 ， 获 取 一 些 关 于 数据 的 统计 信息 。 
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# reading the train and test sets using pandas 
train data = pd.read csv('data/train.csv', header=0) 
test data - pd.read csv('data/test.csv', header-0) 


concatenate the train and test set together for doing the overall feature 
engineering stuff 


df titanic data = pd.concat([train data, test data]) 
removing duplicate indices due to coming the train and test set by reindexing 
the data 


df titanic data.reset index(inplace-True) 


removing the index column the reset index() function generates 


df titanic data.drop('index', axis-1, inplace-True) 


index the columns to be 1-based index 





df titanic data - df titanic data.reindex axis(train data.columns, axis-1) 








QD 原文 中 此 处 错误 地 将 whether (是 否 ) 写 成 了 weather (天 气 )。 一 一 译 者 注 
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这 里 需要 指出 一 些 关 于 以 上 代码 片段 的 知识 点 。 
e 以 上 代码 使 用 了 pandas 库 的 concat 函数 来 联合 训练 集 和 测试 集 的 数据 相 
对 于 特征 工程 任务 很 有 帮助 ， 因 为 需要 全 面 了 解 输入 变量 /特征 的 分 布 。 

@ 在 结合 了 两 个 数据 框架 之 后 ， 还 需要 对 输出 的 数据 框架 做 一 些 修 改 。 

1. 缺失 值 处 理 

从 客户 那里 获取 新 数据 集 后 ， 缺 失 值 处 理 将 是 首先 要 考虑 的 事情 ， 因 为 几乎 每 个 数 
据 集 都 会 存在 缺失 或 不 正确 的 数据 。 在 接 下 来 的 章节 中 ， 我 们 可 以 看 到 一 些 学 习 算法 能 
够 处 理 缺 失 值 问题 ， 但 其 他 学 习 算 法 需要 读者 自己 处 理 缺 失 数 据 。 这 个 例子 使 用 的 是 
scikit-learn 库 中 的 随机 森林 分 类 器 ， 这 个 算法 需要 单独 处 理 缺 失 数据 。 

读者 可 以 使 用 各 种 不 同 的 方法 来 处 理 缺 失 数 据 。 

C1) 删除 所 有 存在 缺失 值 的 样本 


如 果 现 有 数据 集 比较 小 而 且 存 在 很 多 缺失 值 ， 则 删除 所 有 存在 缺失 值 的 样本 不 是 一 
个 好 的 选择 ， 因 为 删除 这 些 存在 缺失 值 的 样本 将 会 使 得 数据 没有 意义 。 但 是 如 果 现 有 数 
据 集 很 大 ， 删 除 存在 缺失 值 样本 对 原始 数据 集 没 有 多 大 影响 ， 那 它 会 是 一 个 快速 而 简单 
的 方法 。 

(2) 缺失 值 输入 

当 数 据 是 分 类 数据 时 ， 输 入 缺失 值 很 有 用 。 这 种 方法 背后 的 逻辑 是 缺失 值 可 能 和 其 他 
变量 相关 联 ， 删 除 它们 可 能 会 导致 信息 丢失 ， 这 会 影响 到 模型 的 性 能 。 

例如 ， 对 于 一 个 可 能 取 值 为 -1 或 1 的 三 元 变量 ， 可 以 考虑 给 它 添加 男 一 个 值 COD 
来 表示 缺失 值 。 可 以 用 UO 来 蔡 代 Cabin 特征 中 的 空 值 ， 代 码 如 下 所 示 。 
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# replacing the missing value in cabin variable "UO" 
df titanic data['Cabin'][df titanic data.Cabin.isnull()] = 'UO' 


(3) 分 配 均值 
因为 分 配 均值 比较 简单 ， 所 以 它 也 是 一 种 常用 的 方法 。 对 于 数值 特征 ， 可 以 使 用 均 
值 或 者 中 位 数 来 代替 缺失 值 。 同 样 也 可 以 在 类 别 变量 的 情况 下 使 用 这 种 方法 ， 有 具体 操作 
是 用 众 数 〈 出 现 频率 最 高 的 值 ) 来 蔡 换 缺失 值 。 


下 面 这 段 代 码 将 Fare 特征 中 非 缺 失 值 的 中 位 数 赋值 给 缺失 值 。 
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# handling the missing values by replacing it with the median fare 
df titanic data['Fare'][np.isnan(df titanic data['Fare'])] = 


df titanic data['Fare'].median() 


或 者 可 以 使 用 以 下 代码 来 求 Embarked 特征 中 











8 现 次 数 最 多 的 值 ， 并 将 它 赋值 给 缺 
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# replacing the missing values with the most common value in the variable 
df titanic data.Embarked[df titanic data.Embarked.isnull()] = 


df titanic data.Embarked.dropna().mode().values 
(4) 使 用 回归 或 者 其 他 简单 模型 预测 缺失 变量 的 值 
在 处 理 “ 泰 坦 尼 克 号 ”示例 中 的 Age 特征 时 用 到 了 这 种 方法 。Age 特征 是 预测 乘客 









































否 生 还 很 重要 的 一 点 , 如 果 采 用 前 面 提 到 的 通过 均值 来 处 理 的 方法 将 会 丢失 一 些 信 息 。 















































为 了 预测 缺失 值 ， 这 里 需要 用 到 监督 学 习 算 法 ， 该 算法 以 可 用 特征 作为 输入 ， 以 想 














要 预测 缺失 值 的 那些 特征 的 可 能 值 作为 输出 。 下 面 的 代码 使 用 随机 森林 分 类 器 来 预测 
Age 特征 中 的 缺失 值 。 





# Define a helper function that can use RandomForestClassifier for handling 
the missing values of the age variable 
def set_missing_ages(): 

global df_titanic_data 


age data = df titanic data[ 
['Age', 'Embarked', 'Fare', 'Parch', 'SibSp', 'Title id', 'Pclass', 
'Names', 'CabinLetter']] 
input values RF - 
age data.loc[(df titanic data.Age.notnull())].values[:, 1::] 
target values RF - 
age data.loc[(df titanic data.Age.notnull())].values[:, 0] 


# Creating an object from the random forest regression function of 
Sklearn«use the documentation for more details» 


regressor - RandomForestRegressor(n estimators-2000, n jobs--1) 


# building the model based on the input values and target values above 


regressor.fit(input values RF, target values RF) 


# using the trained model to predict the missing values 
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predicted_ages = 
regressor.predict(age data.loc[(df titanic data.Age.isnull())].values[:,1::] 
# Filling the predicted ages in the original titanic dataframe 


age data.loc[(age data.Age.isnull()), 'Age'] = predicted ages 


2. 特征 转换 
前 两 节 介 绍 了 读 取 训练 集 和 测试 集 并 将 它们 合并 起 来 的 相关 知识 ， 同 时 也 处 理 了 一 
些 缺 失 值 。 现 在 ,我们 可 以 使 用 scikit-learn 库 中 的 随机 森林 分 类 器 来 预测 乘客 的 生存 率 。 
随机 森林 算法 的 不 同 实现 方法 可 能 接受 不 同类 型 的 数据 。scikit-learn 库 中 的 随机 森林 
法 的 实现 只 接受 数字 数据 ， 所 以 这 里 需要 将 类 别 特征 转换 为 数字 特征 。 
特征 有 以 下 两 种 类 型 。 
@ 定量 特征 : 用 数值 尺度 来 度量 ， 它 能 够 进行 有 意义 的 排序 。 在 Titanic 数据 样本 
"P, Age 特征 就 是 定量 特征 。 
e 定性 变量 : WME (categorical) 变量 ， 这 些 变量 不 是 数字 形式 的 ， 它 们 
述 符合 类 别 的 数据 。 在 Titanic 数据 样本 中 ，Embarked (表明 出 发 港 名 称 〉 特 征 
就 是 定性 特征 。 
我 们 可 以 对 不 同 的 变量 采用 不 同 的 转换 方法 。 下 面 是 一 些 用 来 转换 量化 /类 别 特征 的 
方法 。 
(1) 虚拟 特征 
这 些 变 量 也 称 为 类 别 特征 或 者 二 元 特征 。 如果 需 要 转换 的 特征 只 有 少量 不 同 的 取 值 ， 







































































































































































































































































虚拟 特征 会 是 一 个 不 错 的 选择 。 在 Titanic 数据 样本 中 ，Embarked 特征 只 有 3 种 不 同 值 
(S. C 和 Q)， 它 们 频繁 出 现 。 所 以 ， 我 们 可 以 将 Embarked 特征 转换 为 3 个 虚拟 变量 











(Embarked S. Embarked C 和 Embarked Q)， 以 便 能 够 使 用 随机 森林 分 类 器 。 
下 面 的 代码 将 展示 如 何 进 行 这 种 转化 。 























# constructing binary features 
def process_embarked(): 
global df_titanic_data 


# replacing the missing values with the most common value in the variable 


df titanic data.Embarked[df.Embarked.isnull()] = 


df titanic data.Embarked.dropna().mode().values 
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# converting the values into numbers 
df titanic data['Embarked'] = 
pd.factorize(df titanic data['Embarked'])[0] 


# binarizing the constructed features 
if keep binary: 
df titanic data = pd.concat([df titanic data, 
pd.get dummies (df titanic data['Embarked']).rename( 


columns-lambda x: 'Embarked ' + str(x))], axis-1) 
(2) HAZ 
因 式 分 解 用 于 从 任何 其 他 特征 中 产生 数字 类 别 特征 。 在 pandas Fer, factorized() FR 
数 可 以 做 到 这 一 点 。 如 果 特 征 是 字母 数值 类 别 特征 ， 则 这 种 类 型 的 转换 就 很 有 用 。 在 
Titanic 数据 样本 中 ， 我 们 可 以 将 Cabin 特征 转换 为 类 别 特征 ， 代 表 舱 室 的 字母 。 
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# the cabin number is a sequence of of alphanumerical digits, so we are 
going to create some features 

# from the alphabetical part of it 

df titanic data['CabinLetter'] - df titanic data['Cabin'].map(lambda 1: 
get cabin letter(1)) 

df titanic data['CabinLetter'] = 
pd.factorize(df titanic data['CabinLetter']) [0] 


def get cabin letter(cabin value): 
# searching for the letters in the cabin alphanumerical value 


letter match = re.compile("([a-zA-Z]*)").search(cabin value) 


if letter match: 
return letter match.group() 
else: 


return 'U' 
读者 还 可 以 通过 使 用 以 下 方法 将 变换 应 月 
(3) 缩放 
缩放 转换 只 能 应 用 于 数字 特征 。 


例如 ， 在 Titanic 数据 样本 中 ，Age 特征 可 以 达到 100， 但 是 家 庭 收 入 可 能 数 百 万 美 
元 计 。 有 些 模型 对 数值 的 大 小 很 敏感 ， 所 以 缩放 这 些 特征 有 助 于 这 些 模型 取得 更 好 的 表 
现 。 此 外 ， 缩 放 可 以 将 变量 的 值 压缩 到 特定 范围 内 。 
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下 面 的 代码 通过 对 每 个 值 减 去 样本 均值 来 缩放 Age 特征 ， 然 后 将 它们 缩放 到 单位 

















# scale by subtracting the mean from each value 
scaler processing = preprocessing.StandardScaler () 


df_titanic_data['Age_scaled'] = 


scaler processing.fit transform(df titanic data['Age']) 

(4) 分 档 

分 档 这 种 定量 转换 用 于 创建 分 位 数 。 在 这 种 情况 下 , 把 定量 特征 值 变换 为 有 序 变量 。 
这 种 方法 对 于 线性 回归 并 不 是 一 个 好 的 选择 ， 但 是 对 于 当 使 用 有 序 变 量 或 类 别 变 量 时 能 
够 有 效 响应 的 学 习 算法 来 说 ， 这 种 方法 可 能 会 比较 有 效 。 

下 面 的 代码 将 这 种 变换 方法 应 用 于 Fare 特征 。 



























































































































































# Binarizing the features by binning them into quantiles 





df titanic data['Fare bin'] = pd.qcut(df titanic data['Fare'], 4) 


if keep binary: 
df titanic data = pd.concat( 
[d£ titanic data, 
pd.get dummies (df titanic data['Fare bin']).rename(columns-lambda x: 
'Fare ' + strí(x))], 


axis-1) 


3. 派生 特征 


在 前 一 节 中 ， 我 们 对 Titanic 数据 进行 了 一 些 转换 ， 以 便 能 够 使 用 scikit-learn Æ CA 
接受 数字 数据 ) 中 的 随机 森林 分 类 器 。 在 本 节 中 ， 我 们 将 会 定义 另 一 种 类 型 的 变量 ， 它 
派生 自 一 个 或 多 个 其 他 特征 。 

在 这 个 定义 下 ， 我 们 可 以 说 之 前 的 一 些 变换 也 称 为 派生 特征 。 本 节 将 会 讨论 其 他 复 
杂 的 变换 。 

前 面 提 到 过 读者 需要 使 用 自己 的 特征 工程 技能 来 获取 新 的 特征 以 增强 模型 的 预测 能 
力 ， 同 样 也 谈 到 了 特征 工程 在 数据 科学 流程 中 的 重要 性 ， 以 及 为 什么 需要 花费 大 部 分 的 
时 间 和 精力 来 考虑 一 些 有 用 的 特征 。 在 本 节 中 领域 知识 是 非常 有 用 的 。 
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派生 特征 的 一 个 非常 简单 的 例子 ， 类 似 于 从 电话 号 码 中 提取 出 国家 代码 或 者 区 域 代 
码 ， 或 者 从 GPS 坐标 中 提取 国家 信息 或 区 域 信 息 。 
Titanic 数据 是 非常 简单 的 数据 ， 并 没有 包含 很 多 可 用 的 变量 ， 但 是 读者 可 以 尝试 从 
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现 有 的 文本 特征 中 派生 出 一 些 
(1) Name (名 称 ) 


name 变量 对 于 大 多 数 数据 集 来 说 都 是 无 用 的 , 但 是 它 有 两 个 有 用 的 特性 。 第 一 个 是 
名 字 的 长 度 。 例 如 ， 名 字 的 长 度 可 能 会 反映 出 你 的 身份 ， 因 此 也 会 影响 到 你 登 上 救生 甬 
的 可 能 性 。 


他 特征 。 















































# getting the different names in the names variable 
df titanic data['Names'] = df titanic data['Name'].map(lambda y: 
len(re.split(' ', y))) 


第 二 个 有 趣 的 属性 就 是 名 字 的 Title， 它 能 够 用 来 判断 你 的 身份 或 者 性 别 信息 。 











Getting titles for each person 
df titanic data['Title'] = df titanic data['Name'].map(lambda y: 
re.compile(", (.*?)N.").findall(y)[0] 


handling the low occurring titles 

df titanic data['Title'][df titanic data.Title == 'Jonkheer'] = 'Master' 
df titanic data['Title'][df titanic data.Title.isin(['Ms', 'Mlle'])] = 
Miss? 
df titanic data['Title'][df titanic data.Title == 'Mme'] = 'Mrs' 

df titanic data['Title'][df titanic data.Title.isin(['Capt', 'Don', 





"Major's. "COl 4. teret e sir. 
df titanic data['Title'][df titanic data.Title.isin(['Dona', 'Lady', 'the 
Countess'])] = 'Lady' 





binarizing all the features 
if keep_binary: 
df titanic data = pd.concat ( 
[d£ titanic data, 
pd.get dummies (df titanic data['Title']).rename(columns-lambda x: 'Title ' 
+ str) Jg 


axis=1) 


我 们 还 可 以 尝试 从 Name 这 个 特征 中 提出 一 些 其 他 的 有 趣 的 特征 。 例 如 ， 有 些 人 可 能 
会 想到 通过 名 字 中 的 姓氏 特征 来 查 明 “泰坦 尼 死 号 ”游轮 上 该 姓氏 的 家 庭 成 员 的 个 数 等 。 
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(2) Cabin (船舱 ) 

在 Titanic BOE, Cabin 特征 由 一 个 表示 甲板 的 字母 和 一 个 表示 房间 号 的 数字 组 成 。 
房间 号 码 从 船 头 向 船尾 递增 ， 这 非常 有 助 于 了 解 乘 客 位 置信 息 。 同 样 ， 从 不 同 的 甲板 信 
息 也 可 以 获取 乘客 的 状态 ， 这 也 有 助 于 确定 哪些 人 登 上 了 救生 艇 。 



























































repllacing the missing value in cabin variable "UO" 
df titanic data['Cabin'][df titanic data.Cabin.isnull()] = 'UO' 


the cabin number is a sequence of of alphanumerical digits, so we are 
going to create some features 

from the alphabetical part of it 

df titanic data['CabinLetter'] = df titanic data['Cabin'].map(lambda 1: 
get cabin letter(1)) 





df titanic data['CabinLetter'] = 
pd.factorize(df titanic data['CabinLetter']) [0] 





binarizing the cabin letters features 
if keep binary: 
letters = 
pd.get dummies (df titanic data['CabinLetter']).rename (columns-lambda x: 
'CabinLetter ' + str(x)) 


df titanic data = pd.concat([df titanic data, cletters], axis=1) 


# creating features from the numerical side of the cabin 
df titanic data['CabinNumber'] = df titanic data['Cabin'].map(lambda x: 
get cabin num(x)).astype(int) + 1 


(3) Ticket (=) 
Ticket 特征 的 代码 不 是 非常 清晰 ， 但 我 们 可 以 做 一 些 猜 测 并 尝试 对 它 分 组 。 在 查看 
了 Ticket 特征 后 ， 可 以 得 到 如 下 线索 。 

e 近 1/4 的 船 票 都 是 以 字符 开头 的 ， 而 剩 下 的 3/4 都 只 包含 数字 。 

e 票 号 的 数字 部 分 似乎 隐 含 着 一 些 关 于 乘客 类 别 的 信息 。 例 如 ， 以 “1” 开 头 的 船 
票 通 常 是 头等 票 ， 以 “2” 开 头 的 船 票 通常 是 二 等 票 ， 以 “3” 开 头 的 船 票 通常 是 
三 等 票 。 这 里 只 说 大 部 分 情况 下 ， 因 为 它 适用 于 大 部 分 情况 ,但 并 不 是 全 部 。 还 
有 一 些 票 号 是 以 数字 4~9 开头 的 ， 但 这 些 票 很 少 ， 几 乎 只 有 三 等 票 。 

e 有 些 人 共享 一 个 票 号 , 这 可 能 表明 他 们 来 自 一 个 家 庭 或 者 是 一 起 旅行 并 且 像 一 家 
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人 的 关系 亲密 的 朋友 。 
以 下 这 段 代码 尝试 分 析 船 票 的 特征 码 来 提供 一 些 新 的 线索 。 








# Helper function for constructing features from the ticket variable 
def process_ticket(): 
global df_titanic_data 


df titanic data['TicketPrefix'] = df titanic data['Ticket'].map(lambda 
y: get ticket prefix(y.upper()) 

df titanic data['TicketPrefix'] - 

df titanic data['TicketPrefix'].map(lambda y: re.sub('[\.?\/?]', '', y) 
df titanic data['TicketPrefix'] - 

df titanic data['TicketPrefix'].map(lambda y: re.sub('STON', 'SOTON', y)) 


df titanic data['TicketPrefixId'] = 
pd.factorize(df titanic data['TicketPrefix'])[0] 





binarzing features for each ticket layer 
if keep binary: 
prefixes - 
pd.get dummies (df titanic data['TicketPrefix']).rename(columns-lambda y: 
'TicketPrefix ' + str(y)) 


df titanic data = pd.concat([df titanic data, prefixes], axis-1) 


df titanic data.drop(['TicketPrefix'], axis-1, inplace-True) 


df titanic data['TicketNumber'] - df titanic data['Ticket'].map(lambda 
y: get ticket num(y)) 

df titanic data['TicketNumberDigits'] - 

df titanic data['TicketNumber'].map(lambda y: len(y)).astype (np.int) 
df titanic data['TicketNumberStart'] - 


df titanic data['TicketNumber'].map(lambda y: y[0:1]).astype (np.int) 





df titanic data['TicketNumber'] = 


df titanic data.TicketNumber.astype (np.int) 





if keep scaled: 





Scaler processing - preprocessing.StandardScaler() 
df titanic data['TicketNumber scaled'] - 
Scaler processing.fit transform( 
df titanic data.TicketNumber.reshape(-1, 1) 


def get ticket prefix(ticket value): 
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# searching for the letters in the ticket alphanumerical value 
match letter = re.compile("([a-zA-Z\.\/]+)").search (ticket value) 
if match letter: 

return match letter.group() 
else: 


return 'U' 


def get_ticket_num(ticket_value): 
# searching for the numbers in the ticket alphanumerical value 
match number = re.compile("([Nd]*$)").search(ticket value) 
if match number: 
return match number.group() 
else: 


return '0' 


4. 交互 特征 


通过 对 特征 集合 执行 一 些 数学 运算 并 指出 变量 之 间 关 系 的 作用 ， 我 们 可 以 获得 一 些 
交互 特征 。 这 里 在 数字 特征 上 使 用 基本 的 数学 运算 ， 来 查看 变量 之 间 关 系 的 作用 。 
















































































# Constructing features manually based on the interaction between the 
individual features 
numeric features = df titanic data.loc[:, 

['Age scaled', 'Fare scaled', 'Pclass scaled', 
'Parch scaled', 'SibSp scaled', 

'Names scaled', 'CabinNumber scaled', 
'Age bin id scaled', 'Fare bin id scaled']] 
print ("\nUsing only numeric features for automated feature generation: Mn", 


numeric features.head(10) 


new fields count = 0 


for i in range(0, numeric features.columns.size - 1): 
for j in range(0, numeric features.columns.size - 1): 
if i <= j: 
name = str(numeric features.columns.values[i]) + "*" + 


str(numeric features.columns.values[jl) 
df titanic data = pd.concat( 
[d£ titanic data, pd.Series (numeric features.iloc[:, i] * 
numeric features.iloc[:, j], name-name)], 
axis=1) 
new_fields_count += 1 


if i<j: 
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name = str(numeric features.columns.values[i]) + "+" + 
str (numeric features.columns.values[jl) 
df_titanic_data = pd.concat ( 
[df titanic data, pd.Series (numeric features.iloc[:, i] + 
numeric features.iloc[:, j], name-name)], 
axis=1) 
new_fields_count += 1 
if not i == j: 
name = str(numeric features.columns.values[i]) + "/" + 
str (numeric _features.columns.values[j]) 
df_titanic_data = pd.concat ( 
[d£ titanic data, pd.Series (numeric features.iloc[:, i] / 
numeric features.iloc[:, j], name-name)], 


axis-1) 





name = str(numeric features.columns.values[i]) + "-" + 
str(numeric features.columns.values[jl) 


df titanic data = pd.concat( 





[d£ titanic data, pd.Series (numeric features.iloc[:, i] - 
numeric features.iloc[:, j], name-name)], 
axis=1) 


new_fields_count += 2 


print("\n", new fields count, "new features constructed") 


这 种 特征 工程 可 以 产生 很 多 特征 。 之 前 的 代码 片段 使 用 了 9 种 基本 特征 来 产生 176 种 
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也 可 以 考虑 删除 一 些 高 度 相 关 的 特征 ， 因 为 这 些 特 征 的 存在 并 不 会 给 模型 增加 任何 

















其 他 的 信息 。 这 里 可 以 使 用 Spearman 相关 性 来 识别 和 删除 高 度 相关 的 特征 。Spearman 
方法 的 输出 包含 一 个 等 级 系数 ， 该 系数 可 以 用 来 识别 高 度 相关 的 特征 。 














# using Spearman correlation method to remove the feature that have high 


Correlation 


# calculating the correlation matrix 
df titanic data cor = df titanic data.drop(['Survived', 'PassengerId'], 


axis-1).corr (method-'spearman') 


# creating a mask that will ignore correlated ones 
mask ignore = np.ones(df titanic data cor.columns.size) - 


np.eye(df titanic data cor.columns.size) 
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df titanic data cor = mask ignore * df titanic data cor 
features to drop = [] 


# dropping the correclated features 


for column in df titanic data cor.columns.values: 


# check if we already decided to drop this variable 
if np.inld([column], features to drop): 


continue 


# finding highly correlacted variables 
corr vars - df titanic data cor[abs(df titanic data cor[column])» 
0.98].index 


features to drop = np.unionld(features to drop, corr vars) 


print("\nWe are going to drop", features to drop.shape[0], " which are 
highly correlated features... Mn") 


df titanic data.drop(features to drop, axis-1, inplace-True) 
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为 了 更 好 地 解释 维度 灾难 和 过 拟 合 的 问题 ， 这 里 将 通过 一 个 有 一 组 图 像 的 例子 来 
进行 说 明 。 每 一 幅 图 像 中 都 有 一 只 猫 或 一 只 狗 。 于 是 ， 我 们 希望 建立 一 个 模型 以 区 分 
包含 猫 和 包含 狗 的 图 像 。 就 像 第 1 章 中 的 鱼 类 识别 系统 一 样 ， 我 们 需要 找到 一 个 解释 
性 特征 ， 学 习 0 ee T 
x 分 猫 和 狗 的 良好 描述 符 。 我 们 可 以 将 红色 的 平均 值 、 蓝 色 的 平均 值 和 绿色 的 平均 值 
de spats. 


该 算法 接 下 来 会 以 某 种 方式 结合 这 3 种 特征 ， 以 形成 这 两 个 类 之 间 的 决策 边界 。 
这 3 种 特征 的 一 个 简单 线性 组 合 可 以 表示 成 如 下 形式 。 




















































































































































































































If 0.5*red + 0.3*green + 0.2*blue > 0.6 : return cat; 


else return dog; 


因为 这 些 描述 性 特征 还 不 足以 获得 一 个 好 的 分 类 ， 所 以 我 们 可 以 考虑 增加 更 多 能 够 
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3.2 维度 灾难 


























增强 模型 区 分 犹 和 狗 的 预测 能 力 的 特征 。 例 如 ， 可 以 考虑 通过 计算 图 像 在 X 和 了 维度 的 
平均 边缘 与 梯度 来 增加 诸如 图 像 纹理 等 特征 。 在 增加 这 两 个 特征 后 ， 模 型 的 准确 性 会 提 
高 。 我 们 还 可 以 通过 添加 越 来 越 多 基于 颜色 、 纹 理 直 方 图 、 统 计时 刻 等 的 特征 来 提高 模 
型 (分 类 器 ) 分 类 能 力 。 读 者 可 以 很 轻松 地 添加 几 百 个 这 样 的 特征 来 增强 模型 的 预测 性 
能 ， 但 是 当 增 加 的 特征 超出 一 定 限 制 之 后 ， 结 果 反 而 会 变 得 更 糟 。 通 过 图 3.1， 可 以 更 
好 地 理解 这 一 点 。 

















































































































分 类 器 性 能 





TE DE | 
o | 维度 〈 特 征 数 





— 1 




















最 优 特征 数目 
图 3.1 模型 性 能 与 特征 数目 的 关系 






































如 图 3.1 所 示 ， 随 着 特征 数目 的 增加 ， 分 类 器 的 性 能 也 随 之 提高 ， 直 到 达到 最 佳 性 
能 。 但 在 同样 大 小 的 训练 集 上 ， 如 果 再 继续 增加 特征 ， 分 类 器 的 性 能 将 会 变 差 。 


避免 维度 灾难 


在 前 面 的 内 容 中 ， 我 们 可 以 看 到 ， 当 特征 数量 超过 某 个 最 优 值 之 后 ， 分 类 器 的 性 能 
将 会 下 降 。 从 理论 上 讲 ， 如 果 拥 有 无 限 的 训练 样本 ， 那 么 维度 灾难 是 不 存在 的 。 所 以 ， 
最 优 特 征 数量 完全 取决 于 数据 集 的 大 小 。 

一 种 有 助 于 避免 这 种 维度 灾难 的 方法 是 从 WN 个 特征 中 抽取 出 含有 MM 个 特征 的 子 集 ， 
其 中 M<<N。M 中 的 每 个 特征 都 可 以 是 N 中 某 些 特征 的 组 合 。 有 一 些 现成 算法 可 以 做 到 
这 一 点 ， 这 些 算法 以 某 种 方式 试图 找到 原始 的 X 个 特征 中 有 用 的 、 不 相关 的 、 线 性 的 组 
合 。 其 中 常用 的 技术 就 是 主 成 分 分 析 (Principle Component Analysis, PCA). PCA 试图 
找到 最 少数 量 的 特征 ， 从 而 能 够 捕获 原始 数据 的 最 大 方差 。 

将 PCA 应 用 于 原始 训练 特征 的 有 用 且 简 单 的 代码 如 下 。 
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# minimum variance percentage that should be covered by the reduced number 
of variables 


variance percentage = .99 


# creating PCA object 


pca object = PCA(n components-variance percentage) 


# trasforming the features 
input values transformed = pca object.fit transform(input values, 


target values) 


# creating a datafram for the transformed variables from PCA 


pca df = pd.DataFrame (input values transformed) 


print(pca df.shape[1], " reduced components which describe ", 


Str(variance percentage)[1:], "$ of the variance") 


在 “泰坦 尼克 号 ”示例 中 , 我 们 试图 在 对 原始 特征 应 用 和 不 应 用 PCA 的 情况 下 建立 
分 类 器 。 因 为 最 终 采 用 的 是 随机 森林 分 类 器 ， 所 以 应 用 PCA 对 结果 很 有 帮助 。 随 机 森林 
在 没有 任何 特征 变换 的 情况 下 表现 良好 ， 甚 至 相关 的 特征 并 没有 对 模型 产生 多 少 影响 。 
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3.8 重 温 “泰坦 尼克 号 ”示例 一 一 融会 贯通 


本 节 将 会 把 特征 工程 和 降 维 的 相关 知识 与 技巧 放 在 一 起 讲解 。 该 示例 的 全 部 代码 
如 下 。 


import re 








import numpy as np 

import pandas as pd 

import random as rd 

from sklearn import preprocessing 

from sklearn.cluster import KMeans 

from sklearn.ensemble import RandomForestRegressor 


from sklearn.decomposition import PCA 


# Print options 

np.set printoptions(precision-4, threshold-10000, linewidth=160, 
edgeitems-999, suppress-True) 

pd.set option('display.max columns', None) 


pd.set option('display.max rows', None) 


$0 RR 
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pd.set option('display.width', 160) 
pd.set_option('expand_frame_repr', False) 


pd.set_option('precision', 4) 


# constructing binary features 
def process_embarked(): 
global df_titanic_data 


replacing the missing values with the most common value in the 
variable 
df_titanic_data.Embarked[df.Embarked.isnull()] = 


df titanic data.Embarked.dropna().mode().values 


converting the values into numbers 
df titanic data['Embarked'] - 
pd.factorize(df titanic data['Embarked'])[0] 





binarizing the constructed features 
if keep binary: 
df titanic data = pd.concat([df titanic data, 
pd.get dummies (df titanic data['Embarked']).rename( 


columns-lambda x: 'Embarked ' + str(x))], axis-1) 


# Define a helper function that can use RandomForestClassifier for handling 
the missing values of the age variable 
def set missing ages(): 

global df titanic data 


age data = df titanic data[ 
['Age', 'Embarked', 'Fare', 'Parch', 'SibSp', 'Title id', 'Pclass', 
'Names', 'CabinLetter']] 
input values RF - 
age data.loc[(df titanic data.Age.notnull())].values[:, 1::] 
target values RF - 


age data.loc[(df titanic data.Age.notnull())].values[:, 0] 
# Creating an object from the random forest regression function of 
Sklearn«use the documentation for more details» 


regressor - RandomForestRegressor(n estimators-2000, n jobs--1) 


# building the model based on the input values and target values above 


regressor.fit(input values RF, target values RF) 
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# using the trained model to predict the missing values 


predicted_ages 
regressor.predict(age data.loc[(df titanic data.Age.isnull())].values[:, 
lis] 


# Filling the predicted ages in the original titanic dataframe 
'Age'] = predicted ages 


age data.loc[(age data.Age.isnull()), 
# Helper function for constructing features from the age variable 


def process age(): 
global df titanic data 
# calling the set missing ages helper function to use random forest 
regression for predicting missing values of age 
set missing ages() 


# scale the age variable by centering it around the mean with a unit 








variance 
if keep scaled: 
Scaler preprocessing = preprocessing.StandardScaler() 
df titanic data['Age scaled'] - 
Scaler preprocessing.fit transform(df titanic data.Age.reshape(-1, 1) 
construct a feature for children 
df titanic data['isChild'] = np.where(df titanic data.Age < 13, 1, 0) 
bin into quartiles and create binary features 
df titanic data['Age bin'] = pd.qcut(df titanic data['Age'], 4) 
if keep binary: 
df titanic data = pd.concat([df titanic data, 
'Age ' 


pd.get dummies (df titanic data['Age bin']).rename(columns-lambda y: 


+ str(y))], axis=1) 


if keep_bins: 
df titanic data['Age bin id'] = 


pd.factorize(df titanic data['Age bin'])[0] + 1 


if keep bins and keep scaled: 
preprocessing.StandardScaler() 


Scaler processing 
df titanic data['Age bin id scaled'] 


Scaler processing.fit transform( 
1)) 


df titanic data.Age bin id.reshape(-1, 
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if not keep strings: 


df titanic data.drop('Age bin', axis-1, inplace-True) 


# Helper function for constructing features from the passengers/crew names 
def process name(): 
global df titanic data 


getting the different names in the names variable 
df titanic data['Names'] = df titanic data['Name'].map(lambda y: 


len(re.split(' ', y))) 


Getting titles for each person 
df titanic data['Title'] = df titanic data['Name'].map(lambda y: 
re.compile(", (.*?)N.").findall(y)[0] 


handling the low occurring titles 

df titanic data['Title'][df titanic data.Title -- 'Jonkheer'] - 
'Master' 

df titanic data['Title'][df titanic data.Title.isin(['Ms', 'Mlle'])] - 
'Miss' 
df titanic data['Title'][df titanic data.Title == 'Mme'] = 'Mrs' 
df titanic data['Title'][df titanic data.Title.isin(['Capt', 'Don', 
'Magor', Col". *Sir' lp e sir! 

df titanic data['Title'][df titanic data.Title.isin(['Dona', 'Lady', 
"the Countess'])] = 'Lady' 





binarizing all the features 
if keep_binary: 
df titanic data = pd.concat([df titanic data, 
pd.get dummies (df titanic data['Title']).rename(columns-lambda x: 'Title ' 


* str(x))], axis-1) 


# scaling 

if keep scaled: 
Scaler preprocessing = preprocessing.StandardScaler() 
df titanic data['Names scaled'] - 


Scaler preprocessing.fit transform(df titanic data.Names.reshape(-1, 1)) 


# binning 
if keep_bins: 
df titanic data['Title id'] = 
pd.factorize(df titanic data['Title'])[0] + 1 
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if keep_bins and keep_scaled: 
scaler = preprocessing.StandardScaler () 
df titanic data['Title id _scaled'] = 


Scaler.fit transform(df titanic data.Title id.reshape(-1, 1) 


# Generate features from the cabin input variable 

def process cabin(): 

refering to the global variable that contains the titanic examples 
global df titanic data 


repllacing the missing value in cabin variable "UO" 
df titanic data['Cabin'][df titanic data.Cabin.isnull()] = 'UO' 


the cabin number is a sequence of of alphanumerical digits, so we are 


going to create some features 





from the alphabetical part of it 

df titanic data['CabinLetter'] = df titanic data['Cabin'].map (lambda 1: 
get cabin letter(1)) 

df titanic data['CabinLetter'] = 
pd.factorize(df titanic data['CabinLetter'])[0] 





binarizing the cabin letters features 
if keep binary: 
letters- e 
pd.get dummies (df titanic data['CabinLetter']).rename (columns-lambda x: 
'CabinLetter ' + str(x)) 


df titanic data = pd.concat([df titanic data, cletters], axis=1) 


# creating features from the numerical side of the cabin 

df titanic data['CabinNumber'] = df titanic data['Cabin'].map(lambda x: 
get cabin num(x)).astype(int) + 1 

# scaling the feature 

if keep scaled: 

Scaler processing = preprocessing.StandardScaler ( 

# handling the missing values by replacing it with the median feare 

df titanic data['Fare'][np.isnan(df titanic data['Fare'])] = 


df titanic data['Fare'].median() 





df titanic data['CabinNumber scaled'] = 


Scaler processing.fit transform(df titanic data.CabinNumber.reshape(-1, 1)) 


def get cabin letter(cabin value): 


# searching for the letters in the cabin alphanumerical value 
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letter match = re.compile("([a-zA-Z]*)").search(cabin value) 


if letter match: 
return letter match.group() 
else: 


return 'U' 


def get cabin num(cabin value): 
# searching for the numbers in the cabin alphanumerical value 


number match = re.compile("([0-9]4*)").search(cabin value) 


if number match: 
return number match.group() 
else: 


return 0 


# helper function for constructing features from the ticket fare variable 
def process fare(): 
global df titanic data 


handling the missing values by replacing it with the median feare 
df titanic data['Fare'][np.isnan(df titanic data['Fare'])] = 


df titanic data['Fare'].median() 


zeros in the fare will cause some division problems so we are going 


to set them to 1/10th of the lowest fare 





df titanic data['Fare'][np.where (df titanic data['Fare'] == 0)[01] = 
df titanic data['Fare'][ 

df titanic data['Fare'].nonzero()[ 

0]].min() / 10 


# Binarizing the features by binning them into quantiles 
df titanic data['Fare bin'] = pd.qcut(df titanic data['Fare'], 4) 
if keep binary: 
df titanic data = pd.concat([df titanic data, 
pd.get dummies (df titanic data['Fare bin']).rename(columns-lambda x: 


'Fare ' + str(x))], axis=1) 


# binning 
if keep_bins: 
df titanic data['Fare bin _id'] = 
pd.factorize(df titanic data['Fare bin'])[0] + 1 
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# scaling the value 

if keep_scaled: 
scaler processing = preprocessing.StandardScaler () 
df titanic data['Fare scaled'] = 


Scaler processing.fit transform(df titanic data.Fare.reshape(-1, 1) 


if keep bins and keep scaled: 
Scaler processing - preprocessing.StandardScaler() 
df titanic data['Fare bin id scaled'] = 
Scaler processing.fit transform( 


df titanic data.Fare bin id.reshape(-1, 1) 


if not keep strings: 


df titanic data.drop('Fare bin', axis-1, inplace-True) 


# Helper function for constructing features from the ticket variable 
def process ticket(): 
global df titanic data 


df titanic data['TicketPrefix'] - df titanic data['Ticket'].map(lambda 
y: get ticket prefix(y.upper()) 

df titanic data['TicketPrefix'] - 

df titanic data['TicketPrefix'].map(lambda y: re.sub('[\.?\/?]', '', y) 
df titanic data['TicketPrefix'] - 

df titanic data['TicketPrefix'].map(lambda y: re.sub('STON', 'SOTON', y)) 


df titanic data['TicketPrefixId'] = 
pd.factorize(df titanic data['TicketPrefix'])[0] 





binarzing features for each ticket layer 
if keep binary: 
prefixes - 
pd.get dummies (df titanic data['TicketPrefix']).rename(columns-lambda y: 
'TicketPrefix ' + str(y)) 
df titanic data = pd.concat([df titanic data, prefixes], axis-1) 


df titanic data.drop(['TicketPrefix'], axis-1, inplace-True) 


df titanic data['TicketNumber'] = df titanic data['Ticket'].map(lambda 
y: get ticket num(y)) 

df titanic data['TicketNumberDigits'] - 

df titanic data['TicketNumber'].map(lambda y: len(y)).astype (np.int) 
df titanic data['TicketNumberStart'] - 





df titanic data['TicketNumber'].map(lambda y: y[0:1]).astype (np.int) 
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df titanic data['TicketNumber'] = 
df titanic data.TicketNumber.astype (np.int) 


if keep scaled: 
Scaler processing - preprocessing.StandardScaler() 
df titanic data['TicketNumber scaled'] = 
Scaler processing.fit transform( 


df titanic data.TicketNumber.reshape(-1, 1) 


def get ticket prefix(ticket value): 
# searching for the letters in the ticket alphanumerical value 
match letter = re.compile("([a-zA-Z\.\/]+)") . search (ticket value) 
if match letter: 
return match letter.group() 
else: 


return 'U' 


def get_ticket_num(ticket_value): 
# searching for the numbers in the ticket alphanumerical value 
match number = re.compile("([Nd]*$)").search(ticket value) 
if match number: 
return match number.group() 
else: 


return '0' 


# constructing features from the passenger class variable 
def process PClass(): 
global df titanic data 


using the most frequent value(mode) to replace the messing value 
df titanic data.Pclass[df titanic data.Pclass.isnull()] = 


df titanic data.Pclass.dropna().mode().values 





binarizing the features 
if keep binary: 
df titanic data = pd.concat( 
[d£ titanic data, 
pd.get dummies (df titanic data['Pclass']).rename(columns-lambda y: 
'Pclass ' + str(y))], 


axis-1) 


if keep scaled: 
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Scaler preprocessing = preprocessing.StandardScaler () 
df_titanic_data['Pclass_scaled'] = 


scaler preprocessing.fit transform(df titanic data.Pclass.reshape(-1, 1) ) 


# constructing features based on the family variables subh as SibSp and 
Parch 
def process family(): 

global df titanic data 


# ensuring that there's no zeros to use interaction variables 
df titanic data['SibSp'] = df titanic data['SibSp'] + 1 
df titanic data['Parch'] = df titanic data['Parch'] + 1 


# scaling 
if keep scaled: 
Scaler preprocessing = preprocessing.StandardScaler() 
df titanic data['SibSp scaled'] = 
Scaler preprocessing.fit transform(df titanic data.SibSp.reshape(-1, 1) 
df titanic data['Parch scaled'] = 


Scaler preprocessing.fit transform(df titanic data.Parch.reshape(-1, 1) 


# binarizing all the features 
if keep binary: 
sibsps var = 
pd.get dummies (df titanic data['SibSp']).rename(columns-lambda y: 'SibSp ' 
+ str(y)) 
parchs var - 
pd.get dummies (df titanic data['Parch']).rename(columns-lambda y: 'Parch ' 
* str(y)) 
df titanic data = pd.concat([df titanic data, sibsps var, 


parchs var], axis-1) 


# binarzing the sex variable 
def process sex(): 

global df titanic data 

df titanic data['Gender'] = np.where(df titanic data['Sex'] == 'male', 
1, 0) 


# dropping raw original 
def process drops(): 
global df titanic data 


drops = ['Name', 'Names', 'Title', 'Sex', 'SibSp', 'Parch', 'Pclass', 
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'Embarked', \ 
'Cabin', 'CabinLetter', 'CabinNumber', 'Age', 'Fare', 
'Ticket', 'TicketNumber'] 

String drops = ['Title', 'Name', 'Cabin', 'Ticket', 'Sex', 'Ticket', 
'"TicketNumber'] 

if not keep raw: 

df titanic data.drop(drops, axis-1, inplace-True) 
elif not keep strings: 


df titanic data.drop(string drops, axis-1, inplace-True) 


# handling all the feature engineering tasks 
def get titanic dataset(binary-False, bins-False, scaled-False, 
strings-False, raw-True, pca-False, balanced-False): 
global keep binary, keep bins, keep scaled, keep raw, keep strings, 
df titanic data 
keep binary = binary 
keep bins - bins 
keep scaled = scaled 
keep raw = raw 


keep strings = strings 





reading the train and test sets using pandas 
train data = pd.read csv('data/train.csv', header=0) 


test data - pd.read csv('data/test.csv', header-0) 


concatenate the train and test set together for doing the overall 
feature engineering stuff 


df titanic data = pd.concat([train data, test data]) 
removing duplicate indices due to coming the train and test set by 
re-indexing the data 


df titanic data.reset index(inplace-True) 


removing the index column the reset index() function generates 


df titanic data.drop('index', axis-1, inplace-True) 


index the columns to be 1-based index 





df titanic data - df titanic data.reindex axis(train data.columns, 


axis-1) 





processing the titanic raw variables using the helper functions that 
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we defined above 
process cabin() 
process ticket() 
process name() 
process fare() 
process embarked() 
process family() 
process sex() 
process PClass() 
process age() 


process drops () 


# move the survived column to be the first 

columns list = list(df titanic data.columns.values) 
columns list.remove('Survived') 

new col list = list(['Survived']) 

new col list.extend(columns list) 


df titanic data - df titanic data.reindex(columns-new col list) 


print("Starting with", df titanic data.columns.size, 
"manually constructing features based on the interaction between 


them...\n", df titanic data.columns.values) 


# Constructing features manually based on the interaction between the 
individual features 
numeric features - df titanic data.loc[:, 
['Age scaled', 'Fare scaled', 'Pclass scaled', 
'Parch scaled', 'SibSp scaled', 
'Names scaled', 'CabinNumber scaled', 
'Age bin id scaled', 'Fare bin id scaled']] 
print ("\nUsing only numeric features for automated feature 


generation: Mn", numeric features.head(10) 


new fields count = 0 


for i in range(0, numeric features.columns.size - 1): 
for j in range(0, numeric features.columns.size - 1): 
if i <= j: 
name = str(numeric features.columns.values[i]) + "*" + 


str(numeric features.columns.values[jl) 
df titanic data = pd.concat( 


[d£ titanic data, pd.Series (numeric features.iloc[:, i] 
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* numeric features.iloc[:, j], name=name)], axis=1) 
new_fields count += 1 
if i<j: 
name = str(numeric features.columns.values[i]) + "+" + 
str (numeric features.columns.values[jl) 
df titanic data = pd.concat ( 
[df titanic data, pd.Series (numeric features.iloc[:, i] 
+ numeric features.iloc[:, j], name-name)], axis-1) 
new fields count += 1 
if not i == j: 
name = str(numeric features.columns.values[i]) + "/" + 
str (numeric_features.columns.values[j]) 
df titanic data = pd.concat ( 
[df titanic data, pd.Series (numeric features.iloc[:, i] 
/ numeric features.iloc[:, j], name-name)], axis-1) 
name = str(numeric features.columns.values[i]) + "-" + 
str(numeric features.columns.values[jl) 
df titanic data = pd.concat( 


[d£ titanic data, pd.Series (numeric features.iloc[:, i] 





- numeric features.iloc[:, j], name-name)], axis-1) 


new fields count += 2 


print("\n", new fields count, "new features constructed") 


# using Spearman correlation method to remove the feature that have 


high correlation 


# calculating the correlation matrix 
df titanic data cor = df titanic data.drop(['Survived', 'PassengerId'], 


axis-1).corr (method-'spearman') 

# creating a mask that will ignore correlated ones 

mask ignore = np.ones(df titanic data cor.columns.size) - 
np.eye(df titanic data cor.columns.size) 

df titanic data cor = mask ignore * df titanic data cor 


features to drop = [] 


# dropping the correclated features 


for column in df titanic data cor.columns.values: 
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# check if we already decided to drop this variable 
if np.inld([column], features_to_drop): 


continue 


# finding highly correlacted variables 

corr vars = df titanic data cor[abs(df titanic data cor[column]) > 
0.98].index 

features to drop = np.unionld(features to drop, corr vars) 


print ("\nWe are going to drop", features to drop.shape[0], " which are 
highly correlated features... n") 

df titanic data.drop(features to drop, axis-1, inplace-True) 

# splitting the dataset to train and test and do PCA 

train data - df titanic data[:train data.shape[0]] 

test data = df titanic data[test data.shape[0]:] 


if pca: 
print("reducing number of variables...") 
train data, test data = reduce(train data, test data) 
else: 
# drop the empty 'Survived' column for the test set that was 
created during set concatenation 


test_data.drop('Survived', axis=1, inplace=True) 


print ("\n", train data.columns.size, "initial features generated...\n") 


# , input df.columns.values 
return train data, test data 


# reducing the dimensionality for the training and testing set 
def reduce(train data, test data): 

join the full data together 

df titanic data = pd.concat([train data, test data]) 

df titanic data.reset index(inplace-True) 


df titanic data.drop('index', axis-1, inplace-True) 





df titanic data - df titanic data.reindex axis(train data.columns, 


axis-1) 
# converting the survived column to series 


survived series = pd.Series(df titanic data['Survived'], 


name-'Survived') 
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print(df titanic data.head()) 


# getting the input and target values 
input values = df titanic data.values[:, 1::] 


target values = df titanic data.values[:, 0] 


print(input values[0:10] 


# minimum variance percentage that should be covered by the reduced 
number of variables 


variance percentage = .99 


# creating PCA object 


pca object = PCA(n components-variance percentage) 


# trasforming the features 
input values transformed = pca object.fit transform(input values, 


target values) 


# creating a datafram for the transformed variables from PCA 


pca df = pd.DataFrame(input values transformed) 


print(pca df.shape[1], " reduced components which describe ", 


Str(variance percentage)[1:], "$ of the variance") 


# constructing a new dataframe that contains the newly reduced vars of 
PCA 


df titanic data = pd.concat([survived series, pca df], axis=1) 


# split into separate input and test sets again 
train data = df titanic data[:train data.shape[0]] 
test data = df titanic data[test data.shape[0]:] 
test data.reset index(inplace-True) 

test data.drop('index', axis-1, inplace-True) 


test data.drop('Survived', axis-1, inplace-True) 
return train data, test data 


# Calling the helper functions 


if name == ' main ': 


OO 
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train, test = get titanic dataset(bins-True, scaled-True, binary=True) 
initial drops = ['PassengerId'] 
train.drop(initial drops, axis-1, inplace-True) 


test.drop(initial drops, axis-1, inplace-True) 
train, test - reduce(train, test) 


print(train.columns.values) 


3.4 偏差 -方差 分 解 


在 前 文中 ， 我 们 已 经 知道 了 如 何 选 择 模型 的 最 优 超 参数 。 这 组 最 优 超 参 数 是 基 
于 最 小 化 交叉 验证 误差 选 出 来 的 。 现 在 ， 我 们 需要 了 解 模型 在 未 知 的 数据 或 者 所 谓 
的 样本 外 数据 上 表现 如 何 ， 样 本 外 数据 是 指 在 模型 训练 阶段 完全 没有 看 到 过 的 新 数 
据 样 本 。 


考虑 下 面 这 个 例子 : 假如 有 一 个 大 小 为 10000 的 数据 样本 ， 这 里 使 用 不 同 大 小 的 训 
练 集 来 训练 同样 的 模型 ， 并 绘制 每 一 步 的 测试 误差 。 例 如 ,我 们 取出 其 中 1000 个 样本 作 
为 测试 集 ， 使 用 剩余 的 9000 个 样本 来 训练 。 所 以 ， 对 于 第 一 轮训 练 ， 将 从 9000 个 样本 
中 随机 抽取 一 个 大 小 为 100 的 训练 集 。 然 后 基于 之 前 选 出 的 最 优 超 参数 组 训练 模型 ， 并 
使 用 测试 集 来 测试 模型 ， 接 着 画 出 训练 (样本 内 ) 误差 和 测试 〈 样 本 外 ) 误差 。 最 后 使 
用 不 同 的 训练 集 大 小 例如， 重复 从 9000 个 样本 中 选 500 个 样本 ， 然 后 从 9000 个 样本 
中 选 1000 个 样本 等 ) 重复 上 述 训练 、 测 试 、 画 图 操作 。 
在 完成 所 有 这 些 训 练 、 测 试 和 画图 后 ， 我 们 将 得 到 一 个 包含 两 条 曲线 的 图 ， 代 表 使 
用 相同 模型 但 训练 集 大 小 不 同 的 训练 误差 和 测试 误差 。 从 这 幅 图 中 ， 我 们 可 以 了 解 到 模 
型 到 底 表 现 怎 样 。 

这 个 包含 分 ae AE INTRARE 1 线 的 输出 图 可 能 会 呈现 出 图 3.2 
所 示 的 4 种 形状 之 一 。 这 4 种 不 同形 状 的 曲线 来 自 Andrew Ng 在 Coursera 网 站 上 的 机 
器 学 习 课 程 。 这 是 一 门 优秀 课程 ， 对 于 机 器 学 习 新 手 来 说 ， 其 中 有 很 多 很 好 的 见解 和 

所 以 ， 什 么 时 候 才 可 以 接受 模型 并 投入 使 用 ? 何 时 能 够 知道 模型 在 测试 集 上 表现 不 
佳 ， 并 且 不 会 出 现 错误 的 泛 化 误差 ? 问题 的 答案 取决 于 在 不 同 大 小 训练 集 上 所 绘制 的 训 
练 误差 和 测试 误差 关系 曲线 的 形状 。 
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É, 那么 它 代表 了 低 的 训练 误差 } 
型 是 好 的 , 当 明 到 这 种 模型 的 时 候 应 该 继续 往 前 ， 































































































JÉ. 那么 它 代表 了 高 的 训练 误差 (模型 


34 偏差 -方差 分 解 











低 偏差 高 偏差 
^ ^ 
W 
es | 
训练 集 大 小 
(a) (b) 
IN 
dg Í 
(c) (d) 
图 3.2 ”在 不 同 大 小 训练 集 上 绘制 训练 误差 和 测试 误差 可 能 出 现 的 曲线 形状 








且 在 


























| 线 完全 
、 选 择 的 学 习 算 法 、 











| 练 误差 ， 因 为 模型 没 









































果 也 不 佳 。 
Ph， 存在 两 种 相反 的 






































楚 模 型 中 究竟 哪里 出 了 问题 。 具 有 高 方 


e 如 果 曲 线形 状 看 起 来 像 图 3.2 (a) 中 的 图 
测试 集 上 泛 化 效果 良好 。 这 种 模 2 
并 可 以 投入 实际 使 用 中 。 
e ”如果 曲线 形状 看 起 来 像 图 3.2(b) 中 的 图 
没有 从 训练 样本 中 学 习 到 什么 )， 并 且 在 测试 集 上 泛 化 效果 更 差 。 这 种 | 
就 是 失败 的 ， 如 果 遇 到 这 种 情况 需要 读者 回 过 头 来 看 看 数据 
选择 的 超 参数 有 什么 问题 。 
e 如 果 曲 线形 状 看 起 来 像 图 3.2 (cO 中 的 图 形 ， 它 代表 了 不 好 的 训 
有 能 够 捕捉 到 数据 的 基本 结构 ， 这 同样 适用 于 新 的 测试 数据 。 
@ ”如果 曲线 形状 看 起 来 像 图 3.2(d) 中 的 图 形 ， 它 代表 了 很 高 的 偏差 和 方差 。 这 意 
味 着 模型 没有 很 好 地 理解 训练 数据 ， 因 此 在 测试 集 上 泛 化 效 
偏差 和 方差 是 可 以 用 来 确定 模型 表现 如 何 的 指标 。 在 监督 学 习 
误差 来 源 。 使 用 图 3.2 中 的 学 习 曲 线 ， 可 以 弄 清 
差 和 低 偏差 的 问题 通常 称 为 过 拟 合 ， 这 意味 着 模型 在 训练 样本 上 表现 很 好 ， 但 是 在 测试 

















集 上 泛 化 效果 不 佳 。 具 























高 偏差 和 低 方 差 的 问题 称 为 欠 拟 合 ， 这 意味 着 模型 没有 充分 利 
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用 数据 ， 并 且 没 有 设法 从 输入 特征 中 估计 输出 〈 目 标 )。 有 很 多 不 同 的 方法 可 以 用 来 避 
免 出 现 二 者 中 的 任何 一 种 问题 。 然 而 ， 通 常 ， 优 化 其 中 一 种 指标 将 以 牺牲 另 一 种 指标 
为 代价 。 

对 于 高 方差 的 情况 ， 一 般 通过 增加 模型 可 以 从 中 学 习 的 更 多 特征 来 解决 。 这 些 解决 
方法 很 有 可 能 增加 偏差 ， 所 以 需要 考虑 在 两 者 之 间 做 一 些 权衡 。 














































































































3.5 SAME” 


有 很 多 优秀 的 数据 科学 算法 能 够 用 来 解决 不 同 领域 的 问题 ， 但 是 使 学 习 过 程 可 见 的 
关键 问题 在 于 拥有 足够 的 数据 。 读 者 可 能 会 问 ， 学 习 过 程 到 底 需 要 多 少数 据 才 能 有 效 并 
且 值 得 做 。 根 据 经验 ， 研 究 人 员 和 机 器 学 习 从 业者 认为 数据 样本 的 大 小 至 少 需要 是 模型 
自由 度 的 10 倍 。 


例如 ， 对 于 线性 模型 ， 自 由 度 表 示 数 据 集 中 特征 的 数目 。 如 果 数 据 集中 有 50 个 解释 
性 特征 ， 那 么 至 少 需要 500 个 数据 样本 〈 观 测 值 )。 


打破 经 验 法 则 
在 实践 中 , 我 们 可 以 打破 经 验 法 则 规则 , 在 数据 样本 小 于 数据 特征 数 的 10 倍 时 仍然 
进行 学 习 。 这 通常 发 生 在 模型 比较 简单 或 者 使 用 了 类 似 于 正则 化 《在 下 一 章 会 讨论 ) 的 
方法 的 情况 下 。 
Jake Vanderplas 写 了 一 篇 文章 来 证 明 即 使 数据 拥有 比 样本 更 多 的 参数 仍然 可 以 学 
习 。 为 了 证 明 这 一 点 ， 他 使 用 了 正则 化 。 























































































































































































































3.6 i 


本 章 介 绍 了 机 器 学 习 从 业者 使 用 的 最 重要 工具 ， 目 的 是 能 够 理解 数据 ， 并 且 使 得 学 
习 算 法 能 够 最 大 限度 地 利用 好 这 些 数据 。 

特征 工程 是 数据 科学 中 第 一 个 很 常用 的 工具 ， 是 任何 数据 科学 流程 中 必须 要 有 的 组 件 。 
这 个 工具 的 目的 就 是 能 够 更 好 地 表征 数据 ， 然 后 增强 模型 的 预测 能 








































































































© 此 处 原文 为 “Learning visibility”， 译 者 认为 意思 是 “学 习 的 过 程 有 明显 的 学 习 效 果 ” 根据 后 文 来 理解 为 “需要 
多 少数 据 才能 明显 地 看 到 正在 学 习 并 且 学 习 到 了 东西 ”一 一 译 者 注 
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从 前 面 的 介绍 可 以 看 出 ， 大 量 的 特征 是 有 问题 的 ， 并 且 可 能 会 导致 更 差 的 分 类 器 性 
能 。 同 时 ， 存 在 一 个 最 优 的 特征 数目 ， 它 能 够 使 得 模型 有 最 好 的 性 能 ，3 最 
E 数 目 是 获得 的 数据 样本 〔 观 测 数量 ) 的 函数 。 

随后 ， 本 章 介 绍 了 一 种 非常 强大 的 工 
测试 模型 在 测试 集 上 表现 的 好 坏 。 

最 后 ， 我 们 梳理 了 学 习 可 见 性 
学 习 的 问题 。 经 验 表明 ， 通 常 至 少 需要 10 倍 于 数据 特 和 
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果 使 用 
化 工具 。 
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论 一些 应 用 机 器 学 习 昌 




































































\， 那 就 是 偏差 -方差 分 解 。 这 个 工具 普 裔 用 于 











FE， 它 回 答 了 究竟 需要 多 少数 据 来 



































米 续 增加 能 够 从 数据 中 得 到 有 意义 结论 的 数据 科学 工具 ， 
的 日 常 问题 。 









































展业 务 和 使 用 机 器 
F 数 的 数据 样本 /观测 。 然 而 ， 
了 另 一 种 名 为 正则 化 的 工具 ， 这 种 规则 可 能 被 打破 ， 下 一 章 会 更 讨 


如 
LE 细 地 讨论 正则 














然后 会 讨 
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第 4 章 
TensorFlow 入 门 实 战 






































本 章 介绍 一 个 现 阶段 使 用 最 广泛 的 深层 学 习 框 架 
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TensorFlow。 因 为 TensorFlow 
所 以 使 用 它 来 构建 复杂 的 深度 学 习 应 用 程序 是 我 们 的 不 












































二 选择 。 从 TensorFlow 网 站 我 们 可 以 看 到 : 

TensorFlow 是 一 个 使 用 数据 流 图 进行 数值 计算 的 开源 软件 库 。 图 中 的 节点 代表 
数学 运算 ， 而 图 中 的 边 则 代表 在 这 些 节点 之 间 传 递 的 多 维 数组 ( 张 量 )。 借 助 这 种 灵 
活 的 架构 ， 你 可 以 通过 一 个 API 将 计算 工作 部 署 到 台式 机 、 服 务 器 或 移动 设备 中 的 
一 个 或 多 个 CPU 或 GPU 上 。TensorFlow 最 初 是 由 Google Brain 团队 (隶属 于 Google 
机 器 智能 研究 部 门 ) 的 研究 人 员 和 工程 师 开 发 的 ， 旨 在 用 于 进行 机 器 学 习 和 深度 神 
经 网 络 研 究 。 该 系统 具有 很 好 的 通用 性 ， 还 可 以 应 用 于 众多 其 他 领域 。 


4.1 





本 章 将 介绍 以 下 内 容 。 


@ 安装 TensorFlow。 





























@ TensorFlow 运行 环境 。 


e 计算 图 。 


€ TensorFlow 中 的 数据 类 型 、 变 量 和 占 位 符 。 
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e 获取 TensorFlow AY 44H 


O o 


€ TensorBoard 一 一 可 视 化 学 习 过 程 。 
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“23 TensorFlow 











TensorFlow 有 两 种 版 本 可 以 安装 ， 分 别 是 CPU 版 和 GPU 版 。 本 书 将 使 用 GPU 版 。 


4. 安装 TensorFlow 


4.1.1 在 Ubuntu 16.04 系统 上 安装 GPU 版 的 TensorFlow 


在 安装 GPU 版 的 TensorFlow 之 前 ， 首 先 需 要 安装 最 新 版 的 NVIDIA 驱动 程序 ， 
为 现 阶段 GPU 版 的 TensorFlow 只 支持 CUDA 。 接 下 来 将 会 带领 读者 一 步 步 地 安装 
NVIDIA 驱动 程序 和 CUDAS 驱动 程序 。 






































1. 安装 NVIDIA 驱动 程序 和 CUDA 8 









































首先 需要 安装 正确 的 NVIDIA 驱动 程序 。 这 里 以 GeForce GTX 960M GPU 为 例 ， 
此 会 安装 nvidia-375 〈 如 果 读 者 使 用 的 是 其 他 版 本 ， 请 通过 NVIDIA 官网 来 找到 适合 你 
的 驱动 程序 )。 如 果 你 想 确认 你 的 GPU 型 号 ， 可 以 在 终端 中 使 用 如 下 命令 。 













































































lspci | grep -i nvidia 


你 将 会 看 到 以 下 输出 。 


:~$ lspci | grep -i nvidia 


02:00.0 3D controller: iud eka GM107M [GeForce GTX 960M] (rev a2) 
reS 











接 下 来 ， 需 要 添加 一 个 专 有 的 NVIDIA 驱动 程序 库 ， 以 便 能 够 使 用 apt-get 安装 
驱动 程序 。 








sudo add-apt-repository ppa:graphics-drivers/ppa 
sudo apt-get update 
sudo apt-get install nvidia-375 


在 成 功 安装 NVIDIA 驱动 程序 之 后 ， 重 
成 功 安装 驱动 程序 。 











muy 


启 计算 机 ， 在 终端 输入 以 下 命令 来 确认 是 














ni 




















cat /proc/driver/nvidia/version 
终端 的 输出 结果 如 下 。 


:~$ cat /proc/driver/nvidia/version 
NVRM version: NVIDIA UNIX x86 64 Kernel Module 375.26 Thu Dec 8 18:36:43 PST 
2016 


GCC version: gcc version uU 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.4) 
:~$ 





























接 下 来 ， 安 装 CUDA 8。 打 开 NVIDIA 官网 的 CUDA 下 载 链接 ， 根 据 图 4.1 所 示 
的 屏幕 截图 来 选择 你 的 操作 系统 、 体 系 结构 、 发 行 版 、 版 本 号 以 及 安装 程序 类 型 。 
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Select Target Platform i 


Click on the green buttons that describe your target platform. Only supported platforms will be shown. 


Operating System 
Architecture @ 


Distribution 





Version 





Download Installers for Linux Ubuntu 16.04 x86_64 


The base installer is available for download below. 
There is 1 patch available. This patch requires the base installer to be installed first. 


Installation Instructions: 


Installer Type @ 








1. ‘sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61- 
1_amd64.deb 

2. ‘sudo apt-get update” 

3. ‘sudo apt-get install cuda 

















图 4.1 CUDA 8 安装 过 程 屏幕 截图 


安装 程序 大 约 为 2GB 。 需 要 使 用 如 下 安装 命令 。 








sudo dpkg -i cuda-repo-ubuntul604-8-0-local-ga2_8.0.61-1_amd64.deb 
sudo apt-get update 
sudo apt-get install cuda 


接 下 来 ， 需 要 通过 以 下 命令 将 这 些 库 添 加 到 ,bashrc 文件 中 。 








echo 'export PATH-/usr/local/cuda/bin:$PATH' >> ~/.bashrc 
echo 'export LD LIBRARY PATH-/usr/local/cuda/lib64:$LD LIBRARY PATH' >> ~/.bashrc 


Source -/.bashrc 


接 下 来 ， 需 要 通过 以 下 命令 来 验证 CUDA 8 是 否 成 功 安装 。 








nvcc -V 


如 果 安 装 成 功 ， 将 在 终端 中 看 到 以 下 结果 。 





t~$ nvcc -V 
nvcc: NVIDIA (R) Cuda compiler driver 
Copyright (c) 200 
Built on Tue Jan 1 
Cuda compilation tools, 





4.1 安装 TensorFlow 


最 后 , 安装 cuDNN 6.0. NVIDIA CUDA 深度 神经 网 络 库 (NVIDIA CUDA Deep Neural 
Network library, cuDNN) 是 一 个 支持 GPU 加 速 的 深层 神经 网 络 库 。 可 以 从 NVIDIA 官 
网 下 载 它 。 使 用 以 下 命令 来 提取 和 安装 cuDNN。 


cd ~/Downloads/ 


























Y 














tar xvfcudnn*.tgz 

cd cuda 

sudo cp */*.h /usr/local/cuda/include/ 

sudo cp */libcudnn* /usr/local/cuda/1ib64/ 
sudo chmod atr /usr/local/cuda/lib64/libcudnn* 


为 确保 安装 成 功 ， 可 以 在 终端 中 使 用 nvidiacssmi 工具 来 进行 验证 。 如 果 安 装 成 功 ， 
该 工具 将 提供 GPU 的 监控 信息 ， 例 如 RAM 和 GPU 的 运行 状态 。 
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2. 安装 TensorFlow 











在 为 TensorFlow 准备 好 GPU 环境 之 后 , 现在 可 以 在 GPU 模式 下 安装 TensorFlow 了 。 
在 安装 TensorFlow 之 前 ， 可 以 先 安装 一 些 有 用 的 Python 软件 包 。 这 些 包 将 在 下 一 章 中 
讲解 ， 它 们 可 以 使 开发 环境 使 用 起 来 更 加 简单 。 


通过 以 下 命令 开始 安装 一 些 有 关 数 据 操作 、 分 析 和 可 视 化 的 库 。 



























































sudo apt-get update && apt-get install -y python-numpy python-scipy python-nose 
python-h5py python-skimage python-matplotlib python-pandas python-sklearn python- 
sympy 

sudo apt-get clean && sudo apt-get autoremove 





sudo rm -rf /var/lib/apt/lists/* 


也 可 以 安装 更 多 有 用 的 工具 库 ， 比 如 虚拟 环境 〈virtual environment). Jupyter. 


Notebook 等 。 


























sudo apt-get update 

sudo apt-get install git python-dev python3-dev python-numpy python3-numpy build- 
essential python-pip python3-pip python-virtualenv swig python-wheel libcurl3- 
dev 
sudo apt-get install -y libfreetype6-dev libpngl2-dev 

pip3 install -U matplotlibipython[all] jupyter pandas scikit-image 





最 后 ， 通 过 使 用 以 下 命令 安装 TensorFlow 的 GPU 版 。 


























pip3 install --upgrade tensorflow-gpu 
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接 下 来 ， 使 用 Python 来 验证 TensorFlow 是 否 安装 成 功 。 


python3 

>>> import tensorflow as tf 

>>> a = tf.constant (5) 

>>> b = tf.constant (6) 

>>> sess = tf.Session() 

>>> sess.run (a+b) 

// this should print bunch of messages showing device status etc. // If everything 
goes well, you should see gpu listed in device 


>>> sess.close() 


如 果 安 装 成 功 将 会 在 终 





= 


Rt 


当中 看 到 以 下 内 容 。 








:~$ python3 
Python 3.6.0 |Anaconda 4.3.0 (64-bit)| (default, Dec 23 2016, 12:22:00) 
[GCC 4.4.7 20120313 (Red Hat 4.4.7-1)] on Linux 
Type "help", "copyright", "credits" or "license" for more information. 
»»» import tensorflow as tf 
I tensorflow/stream_executor/dso_loader.cc: successfully opened CUDA library libcublas.so locally 
tensorflow/stream_executor/dso_loader. successfully opened CUDA library libcudnn.so locally 
tensorflow/stream_executor/dso_loader. successfully opened CUDA library libcufft.so locally 
tensorflow/stream_executor/dso_loader. successfully opened CUDA library libcuda.so.1 locally 
tensorflow/stream_executor/dso_loader.cc: successfully opened CUDA library libcurand.so locally 
>>> a = tf.constant(5) 
>>> b = tf.constant(6) 
>>> sess = tf.Session() 
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:937] successful NUMA node read from SysFS had 
negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero 
I tensorflow/core/common runtime/gpu/gpu device.cc:885] Found device 8 with properties: 
name: GeForce GTX 960M 
major: 5 minor: © memoryClockRate (GHz) 1.176 
pciBusID 0000:02:00.0 
Total memory: 3.95GiB 
Free memory: 3.43GiB 
I tensorflow/core/common runtime/gpu/gpu device.cc:906] DMA: 0 
I tensorflow/core/common runtime/gpu/gpu device.c 16] 8: Y 
I tensorflow/core/common runtime/gpu/gpu device.c 75] Creating TensorFlow device (/gpu:0) -> (devic 
e: 0, name: GeForce GTX 960M, pci bus id: 0000:02:00.0) 
>>> sess.run(atb) 
11 
>>> sess.close() 
>>> 


4.1.2 在 Ubuntu 16.04 系统 上 安装 CPU 版 的 TensorFlow 


在 本 节 中 , 你 将 会 安装 CPU 版 的 TensorFlow, 它 的 好 处 是 在 安装 之 前 不 需要 安装 额 
外 的 驱动 程序 。 在 安装 开始 之 前 建议 你 先 安装 一 些 有 关 数 据 操作 和 可 视 化 的 软件 包 。 


I 
I 
I 
I 






































sudo apt-get update && apt-get install -y python-numpy python-scipy python-nose 
python-h5py python-skimage python-matplotlib python-pandas python-sklearn python- 
sympy 

sudo apt-get clean && sudo apt-get autoremove 

sudo rm -rf /var/lib/apt/lists/* 
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也 可 以 安装 更 多 有 用 的 工具 库 ， 比 如 虚拟 环境 〈virtual environment). Jupyter. 


Notebook 等 。 


sudo apt-get update 

sudo apt-get install git python-dev python3-dev python-numpy python3-numpy 
build-essential python-pip python3-pip python-virtualenv swig python-wheel 
libcurl3-dev 

sudo apt-get install -y libfreetype6-dev libpngl2-dev 

pip3 install -U matplotlibipython[all] jupyter pandas scikit-image 





最 后 ， 安 装 最 新 的 CPU 版 的 TensorFlow. 
pip3 install --upgrade tensorflow 


接 下 来 ， 为 了 验证 是 否 安装 成 功 ， 可 以 尝试 以 下 命令 。 














Python3 
>>> import tensorflow as tf 


>>> a = tf.constant (5) 


>>> b tfi.constant (6) 
>>> sess = tf.Session() 
>>> sess.run(atb) 


>> sess.close() 


如 果 安 装 成 功 ， 将 会 在 终端 








E 
+4 
it 


到 以 下 结果 。 

















=$ 

Python 3.6.0 |Anaconda 4.3.0 (64-bit)| (default, Dec 23 2016, 12:22:00) 

[GCC 4.4.7 20120313 (Red Hat 4.4.7-1)] on linux 

Type "help", "copyright", "credits" or "license" for more information 

»»» import tensorflow as tf 

>>> a = tf.constant(5) 

>>> b = tf.constant(6) 

>>> sess = tf.Session() 

2017-09-11 15:39:50.792072: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow librar 

y wasn't compiled to use SSE4.1 instructions, but these are available on your machine and could speed 
up CPU computations 

2017-09-11 15:39:50.792125: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow librar 

y wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed 
up CPU computations. 

2017-09-11 15:39:50.792143: W tensorflow/core/platform/cpu feature guard.cc:45] The TensorFlow librar 

y wasn't compiled to use AVX instructions, but these are available on your machine and could speed up 
CPU computations. 

2017-09-11 15:39:50.792158: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow librar 

y wasn't compiled to use AVX2 instructions, but these are available on your machine and could speed u 
p CPU computations. 

2017-09-11 15:39:50.792177: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow librar 

y wasn't compiled to use FMA instructions, but these are available on your machine and could speed up 
CPU computations. 

>>> sess.run(a+b) 

11 

>>> sess.close() 

>>> 
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4.1.3 Æ Mac OS X 上 安装 CPU 版 的 TensorFlow 


本 节 将 介绍 使 用 virtualenv 为 Mac OS X 安装 TensorFlow。 首 先 ， 通 过 以 下 命令 来 安 
48 pip 工具 。 












































sudo easy_install pip 


接 下 来 ， 安 装 虚拟 环境 库 。 





sudo pip install --upgrade virtualenv 























安装 完 虚 拟 环境 库 之 后 ， 我 们 需要 创建 一 个 容器 或 虚拟 环境 来 承载 安装 的 TensorFlow, 
以 及 可 能 要 安装 的 任何 软件 包 ， 但 不 会 影响 底层 主机 系统 。 























virtualenv --system-site-packages targetDirectory # for Python 2.7 


virtualenv --system-site-packages -p python3 targetDirectory # for Python 3.n 





这 里 所 指 的 targetDirectory 是 ~/tensorflow 。 


现在 虚拟 环境 已 经 创建 好 了 ， 使 用 以 下 命令 访问 这 个 环境 。 








source ~/tensorflow/bin/activate 


旦 你 使 用 这 个 命令 ， 就 可 以 访问 刚刚 创建 的 虚拟 环境 了 ， 并 且 可 以 安装 任何 只 使 
用 在 这 个 环境 中 的 软件 包 ， 而 不 会 对 底层 或 主机 系统 产生 影响 。 

HH 

女 


退出 虚拟 环境 ， 可 以 使 用 以 下 命令 。 






























































Deactivate 






































要 进入 虚拟 环境 ， 可 以 使 用 以 下 命令 。 一 旦 使 用 完 TensorFlow， 就 应 该 关闭 它 。 
source bin/activate 


为 了 安装 CPU 版 的 TensorFlow， 可 以 使 用 以 下 命令 ， 该 命令 还 将 安装 TensorFlow 
所 需 的 任何 相关 库 。 








(tensorflow)$ pip install --upgrade tensorflow # for Python 2.7 
(tensorflow)$ pip3 install --upgrade tensorflow # for Python 3.n 


4.1.4 Æ Windows 系统 上 安装 CPU/GPU 版 的 TensorFlow 


假定 你 的 系统 上 已 经 安装 了 Python 3。 要 安装 TensorFlow， 请 按 如 下 操作 步骤 以 管 
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4.2 TensorFlow 运行 环境 

















理 员 身 份 启动 命令 提示 符 。 具 体 做 法 为 : 打开 “开始 ” 菜单， 搜索 “cmd”， 然 后 右 击 它 ， 
并 选择 “以 管理 员 身 份 运行 ” 如 图 4.2 所 示 。 












































D & LE 








© 以 管理 员 身份 运行 
D 打开 文件 位 置 
4a 国定 到 开始 "屏幕 


m -a 固 定 到 任务 栏 





























图 4.2 始 安装 TensorFlow 























旦 打开 了 一 个 命令 窗口 ， 即 可 以 使 用 以 下 命令 在 GPU 模式 下 安装 TensorFlow. 























C:\> pip3 install --upgrade tensorflow-gpu 


Qo 在 使 用 下 一 个 命令 之 前 ， 读 者 需要 安装 pip 或 pip3 (根据 Python BLA). 





或 者 使 用 以 下 命令 安装 CPU 版 的 TensorFlow. 


C:\> pip3 install --upgrade tensorflow 


4.2 TensorFlow 运行 环境 


























TensorFlow 是 谷歌 的 一 个 深度 学 习 框 架 ， 顾 名 思 义 ， 它 来 源 于 神经 网 络 在 多 维 数据 
阵列 或 张 量 〈Tensor) 上 执行 的 操作 。TensorFlow 实际 上 是 张 量 流 。 
但 首先 我 们 要 明确 为 什么 要 在 本 书 中 使 用 深度 学 习 框 架 。 
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e 它 简化 了 机 器 学 习 代 码 。 由 于 这 些 深度 学 习 框架 的 存在 ,大 部 分 深度 学 习 和 机 器 
学 习 的 研究 都 可 以 实现 。 它 们 人 允许 数据 科学 家 极其 快速 地 迭代 自己 的 深度 学 习 项 
目 ， 并 为 从 业者 提供 了 更 多 使 用 深度 学 习 和 其 他 机 器 学 习 算法 的 机 会 。 谷 歌 、 
Facebook 等 大 公司 正在 使 用 这 种 深度 学 习 框 架 来 扩展 更 多 的 用 户 。 
e 它 可 以 计算 梯度 ,深度 学 习 框架 也 可 以 自动 计算 梯度 。 如 果 尝 试 过 逐步 进行 梯度 计算 ， 
我 们 会 发 现 梯 度 计算 并 不 简单 ， 而 且 自 己 编写 出 无 Bug 的 程序 可 能 会 非常 困难 。 
e 它 将 机 器 学 习 应 用 程序 标准 化 以 进行 共享 。 另 外 , 可 以 在 不 同 的 深度 学 习 框 架 中 
使 用 的 预 训 练 模 型 可 以 在 线 获得 。 这 些 预 训练 模型 可 以 帮助 那些 GPU 资源 有 限 
的 人 ， 这 样 他 们 就 不 必 每 次 都 从 头 开 始 。 我 们 可 以 站 在 巨人 的 肩膀 上 了 解 这 些 。 
e 不 同 的 深度 学 习 框 架 具 有 不 同 的 人 优点。 例如， 范例、 抽象 层 次 、 编 程 语言 等 。 
e 它 会 提供 GPU 并 行 处 理 的 接口 。 使 用 GPU 进行 计算 是 一 项 非常 吸引 人 的 功能 ， 
因为 由 于 庞大 的 内 核 数量 和 并 行 化 ，GPU 加 速 代 码 的 速度 比 CPU 快 得 多 。 
这 就 是 为 什么 想 在 深度 学 习 方 面 取得 突破 ，TensorFlow 是 读者 的 必然 选择 ， 因 为 它 
可 以 为 读者 的 项 目 提供 便利 。 
那么 ， 简 单 地 说 ， 什 么 是 TensorFlow? 
€ TensorFlow 是 来 自 谷 歌 的 深度 学 习 框 架 ， 它 是 使 用 数据 流 图 进行 数值 计算 的 开源 
软件 。 
€ TensorFlow 最 初 是 由 谷歌 Brain Team 开发 的 ， 目 的 是 促进 他 们 的 机 器 学 习 研 究 。 
€ TensorFlow 可 以 理解 为 机 器 学 习 算法 的 编程 接口 和 执行 这 些 算法 的 实现 工具 。 


那么 TensorFlow 是 怎么 工作 的 ? 它 的 规则 是 什么 ? 






































































































































































































































































































































































































































43 计算 图 


关于 TensorFlow 的 所 有 重要 创新 中 最 著名 的 是 : 把 所 有 数字 
计算 都 表示 为 计算 图 ， 如 图 4.3 所 示 。 任 何 TensorFlow 程序 都 将 
变 成 一 个 计算 图 ， 有 具体 细节 如 下 。 


e 图 中 的 节点 是 有 关 任 意 输 入 和 输出 的 运算 节点 。 


e 图 中 的 节点 之 间 的 边 可 以 理解 为 在 运算 之 间 流 动 的 张 ” 图 4.3 TensorFlow 计算 图 
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量 。 简 言 之 ， 在 实践 中 张 量 就 是 维 数组 。 
使 用 图 4.3 所 示 的 计算 图 作为 深度 学 习 框 架 的 核心 ， 其 优势 在 于 它 允 许 我 们 根据 小 
而 简单 的 操作 构建 复杂 的 模型 。 另 外 ， 在 后 面 的 章节 中 会 发 现 ， 这 将 使 梯度 计算 变 得 非 
常 简单 。 
里 解 TensorFlow 计算 图 概念 的 思路 是 ,每 个 运算 都 是 一 个 可 以 在 图 节点 上 进行 计算 
的 函数 。 























































































































4.4 TensorFlow 中 的 数据 类 型 、 变 量 、 占 位 符 














对 计算 图 的 理解 将 帮助 我 们 根据 小 的 子 图 和 运算 来 思考 复杂 的 模型 。 
看 一 个 只 有 一 个 隐藏 层 的 神经 网 络 的 例子 ， 以 及 在 TensorFlow 中 它 的 计算 医 
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h = ReLU(Wx +b) 
在 这 里 求解 经 过 ReLU 激活 后 的 结果 , 首先 某 个 参数 矩阵 W eU EA SDN x 再 加 上 
个 偏差 项 5p， 然后 使 用 ReLU 函数 ， 取 输出 和 零 中 的 最 大 值 。 

在 图 4.3 所 示 计 算 图 中 ， 有 变量 b. EE W AIOE x 的 占 位 符 ， 图 中 同时 包含 
每 个 运算 的 节点 。 下 面 进一步 讲述 这 些 节 点 类 型 。 

4.4.1 变量 

变量 可 以 作为 有 状态 的 节点 从 而 输出 其 当前 值 。 在 这 个 例子 中 ， 变 量 是 b AW. m 
是 有 状态 的 含义 是 在 多 次 执行 之 后 , 程序 依然 保留 了 它们 的 当前 值 ， 并 且 很 容易 将 已 保存 的 
值 还 原 为 变量 ， 如 图 4.4 所 示 。 


另外 ， 变 量 还 有 其 他 有 用 的 功能 。 例 如 ， 变 量 可 以 在 训练 期 
间或 者 训练 后 保存 到 硬盘 中 ， 这 有 助 于 实现 前 面 提 到 的 功能 ;可 




































































































































































































































































以 让 不 同 公司 与 团队 的 人 员 保 存 、 存 储 模型 参数 并 将 它们 发 送 给 ass 
其 他 人 。 此 外 ， 变 量 可 以 调整 变量 以 减少 损失 (loss )， 接 下 来 我 
们 将 看 到 如 何 做 到 这 一 点 。 Bt Tene lOvE re 






































注意 ， 计 算 图 中 的 变量 (如 5 AW) 仍然 表示 运算 ， 因 为 根据 定义 ， 图 中 的 所 有 贡 
点 都 表示 操作 。 因 此 ， 在 运行 过 程 中 当 求 5 和 到 的 值 时 ， 我 们 将 获得 这 些 变 量 的 值 。 
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可 以 使 用 TensorFlow 的 Variable() 函 数 来 定义 一 个 变量 并 给 它 赋 初始 值 。 
var = tf.Variable(tf.random normal((0,1)),name-'random values') 


这 行 代码 将 定义 一 个 1x1 的 变量 并 使 用 标准 正 态 分 布 初始 化 它 ”， 同 时 也 可 以 给 这 


个 变量 命名 。 
44.2 占 位 符 


下 一 个 类 型 的 节点 是 占 位 符 。 占 位 符 是 指 其 值 在 执行 时 传 入 
的 节点 ， 如 图 4.5 所 示 。 
如 果 计 算 图 中 有 依赖 于 某 些 外 部 数据 的 输入 ， 那 么 可 以 使 用 
占 位 符 在 训练 期 间 添 加 值 到 计算 图 中 。 所 以 ， 对 于 占 位 符 ， 我 们 
不 需要 提供 任何 初始 值 ， 只 需要 给 张 量 分 配 数据 类 型 和 形状 。 这 “A 
样 计算 图 就 知道 要 计算 什么 ， 即 使 它 尚 未 存储 任何 值 。 图 4.5 TensorFlow 计算 图 
可 以 使 用 TensorFlow 的 placeholder() EK BOK GU 4 ALF « 





















































































































































ph_varl = tf.placeholder (tf.float32,shape=(2,3) ) 
ph var2 = tf.placeholder (tf. float32,shape=(3,2) ) 
result = tf.matmul(ph varl,ph var2) 


这 些 代 码 行 定义 了 两 个 特定 形状 的 占 位 符 变量 ， 然 后 定义 了 将 这 两 个 值 相 乘 的 运算 
具体 介绍 请 参考 4.4.3 节 )。 
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4.4.3 ”数学 运算 
数学 运算 ， 包 括 和 矩阵 乘法 (MatMul)、 加 法 (Add) 和 ReLU， 如 图 4.6 所 
gs. 所 有 这 些 运算 都 是 TensorFlow 图 中 的 节点 ，Tensorflow 中 的 这 些 
操作 与 NumPy 操作 非常 相似 。 

下 面 讨论 计 算 图 在 代码 中 的 形状 。 

执行 以 下 步 又 来 生成 图 4.6。 
图 4.6 TensorFlow 计算 图 D 创建 并 初始 化 权重 WM 2。 初始 化 权重 。 和 矩阵 W 的 方法 


是 从 均匀 分 布 W —Uniform (-1,1) 采样 并 且 初 始 化 为 0。 
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44 TensorFlow 中 的 数据 类 型 、 变 量 、 占 位 符 























2) 创建 输入 占 位 符 x， 输 入 具有 m *784 形状 的 矩阵 。 
3) 建立 一 个 流程 图 。 
继续 并 按照 以 下 步骤 来 构建 流程 图 。 

















m: 





import TensorFlow package 

import tensorflow as tf 

build a TensorFlow variable b taking in initial zeros of size 100 
( a vector of 100 values) 

b = tf.Variable(tf.zeros((100,))) 

TensorFlow variable uniformly distributed values between -1 and 1 
of shape 784 by 100 

W = tf.Variable(tf.random uniform((784, 100),-1,1) 

TensorFlow placeholder for our input data that doesn't take in 
any initial values, it just takes a data type 32 bit floats as 
well as its shape 

x = tf.placeholder(tf.float32, (100, 784)) 


express h as TensorflowReLU of the TensorFlow matrix 








Multiplication of x and W and we add b 
h = tf.nn.relu(tf.matmul(x,W) + b) 


从 前 面 的 代码 可 以 看 出 ， 我 们 实际 上 并 没有 用 这 段 代码 来 操纵 任何 数据 。 我 们 只 是 
内 部 构建 符号 ， 并 且 在 运行 此 图 表 之 前 ， 无 法 输出 h 并 查看 其 值 。 所 以 ， 这 段 代 
] 于 构建 模型 的 核心 ,如 果 你 尝试 在 前 面 的 代码 中 输出 WER b WHE, WIIZE Python 
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:~$ python3 
Python 3.6.0 |Anaconda 4.3.0 (64-bit)| (default, Dec 23 2016, 12:22:00) 
[GCC 4.4.7 20120313 (Red Hat 4.4.7-1)] on Linux 
Type "help", "copyright", "credits" or "license" for more information. 
>>> # import TensorFlow package 
... import tensorflow as tf 
>>> build a TensorFlow variable b taking in initial zeros of size 100 
( a vector of 100 values) 
= tf.Variable(tf.zeros((100,))) 
TensorFlow variable uniformly distributed values between -1 and 1 
of shape 784 by 100 
= tf.Variable(tf.random_uniform((784, 100),-1,1)) 
TensorFlow placeholder for our input data that doesn't take in 
any initial values, it just takes a data type 32 bit floats as 
well as its shape 
= tf.placeholder(tf.float32, (100, 784)) 
express h as Tensorflow ReLU of the TensorFlow matrix 
... #Multiplication of x and W and we add b 
- h = tf.nn.relu(tf.matmul(x,W) + b ) 

print(W) 

Variable 'Variable_1:0' shape=(784, 100) dtype=float32_ref> 

print(b) 

«Variable 'Variable:0' shape=(100,) dtype=float32_ref> 


# 
# 
b 
# 
- # 
W 
# 
dH 
"E 
o X 
# 
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至 此 ， 我 们 已 经 定义 了 图 形 ， 现 在 需要 实际 运行 它 。 











4.5 ”获取 TensorFlow 的 输出 

















在 4.4 节 中 ， 读 者 知道 了 如 何 构建 计 
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， 现 在 介绍 如 何 实际 运行 它 并 获得 它 的 





at. 

















我 们 可 以 用 会 话 〈session ) 来 部 署 /运行 计算 图 ， 会 话 可 以 将 计算 任务 部 署 到 一 个 特 





























定 的 运算 环境 (如 CPU 或 GPU) 中 。 因 此 ， 可 以 使 用 会 话 将 构建 的 计算 图 部 署 到 CPU 

































































或 GPU 中 。 
为 了 运行 计算 图 ， 需 要 定义 一 个 名 为 sess 的 会 话 对 象 ， 并 且 调 用 带 有 两 个 参数 的 函 
数 run。 


sess.run(fetches, feeds) 


FL, fetches 指 的 是 需要 输出 的 所 有 计算 图 节点 构成 的 列表 ， 可 以 理解 为 我 们 希望 









































计算 的 关键 节点 ; feeds 指 的 是 从 图 中 的 节点 到 读者 想 要 在 模型 中 运行 的 实际 值 的 字典 映 


射 ， 




















因此 ，feeds 就 是 之 前 提 到 的 要 传 入 数值 到 占 位 符 的 地 方 。 
详细 代码 如 下 所 示 。 























importing the numpy package for generating random variables for 
our placeholder x 

import numpy as np 

build a TensorFlow session object which takes a default execution 
environment which will be most likely a CPU 

sess = tf.Session() 

calling the run function of the sess object to initialize all the 
variables. 

sess.run(tf.global variables initializer() 

calling the run function on the node that we are interested in, 


the h, and we feed in our second argument which is a dictionary 








for our placeholder x with the values that we are interested in. 


sess.run(h, (x: np.random.random((100,784))]) 


在 通过 sess 对 象 运行 计算 图 后 ， 应 该 得 到 类 似 于 以 下 的 输出 。 
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4.6 TensorBoard 可 视 化 学 习 过 程 


>>> # importing the numpy package for generating random variables for 
... # our placeholder x 
.. import numpy as np 
> # build a TensorFlow session object which takes a default execution 
. # environment which will be most likely a CPU 
. sess = tf.Session() 
# calling the run function of the sess object to initialize all the 
. # variables. 
.. sess.run(tf.global variables initializer()) 
> # calling the run function on the node that we are interested in, 
. # the h, and we feed in our second argument which is a dictionary 
. 4 for our placeholder x with the values that we are interested in. 
sess.run(h, {x: np.random.random( (100,784) )}) 
array([[ 4.95583916, 0.13156724, ©. 


[ e. 
[ 


sees 
[ 2.81067681, . 28696823, 
0.55022001, . - 
0. , 6.67730427, 
4.28411198, -10559845], 
1.92718267, 0. ， 0. xus 
0. : s ]], dtype=float32) 








可 以 看 到 ， 在 上 面 的 代码 片段 的 第 9 EU 初始 化 变量 ， 这 是 TensorFlow 中 的 一 
个 概念 ， 它 称 为 延 后 计算 (lazy evaluation )。 这 意味 着 计算 图 只 会 在 会 话 运行 时 计算 。 
所 以 ， 调 E 函数 global_variables_initializer() 实 际 上 会 初始 化 计算 图 中 所 有 的 变量 ， 比 如 
之 前 例子 中 的 丈 和 2。 


我 们 还 可 以 在 with 代码 块 中 使 用 会 话 变量 , 以 确保 在 执行 完 该 计算 图 后 会 话 将 关闭 。 
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ph varl = tf.placeholder(tf.float32,shape-(2,3)) 

ph var2 = tf.placeholder (tf.float32,shape- (3,2) ) 

result - tf.matmul(ph varl,ph var2) 

with tf.Session() as sess: 
print(sess.run([result],feed dict-(ph varl1:[[1.,3.,4.],[1.,3.,4.]],ph var2: 
Lbs Sidi, Bertely lelas TFA) 


Output: 


[array([[10.4, 22. ], 
[10.4, 22. ]], dtype-float32)] 


4.6 TensorBoard 一 一 可 视 化 学 习 过 程 




















当 我 们 使 用 TensorFlow 训练 一 个 大 规模 的 深度 神经 网 络 时 , 过 程 可 能 会 很 复杂 且 令 
人 困惑 ， 同 时 其 相应 的 计算 图 也 会 很 复杂 。 为 了 更 容易 地 理解 训练 过 程 、 调 试 和 优化 





(D 原文 此 处 为 “第 2 行 ” 应 为 笔 误 。 一 一 译 者 注 
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TensorFlow 程序 ，TensorFlow 团队 开发 了 一 套 名 为 TensorBoard 的 可 视 化 工具 ， 它 是 一 
套 可 以 通过 浏览 器 运行 的 Web 应 用 程序 。 TensorBoard 可 用 于 可 视 化 TensorFlow 计算 图 ， 
绘制 有 关 计 算 图 运行 结果 的 量化 指标 ， 并 显示 其 他 数据 (如 通过 它 的 图 像 )。 配 置 好 的 
TensorBoard 界面 如 图 4.7 所 示 。 











TensorBoard EVENTS IMAGES GRAPH HISTOGRAMS 
input new regex ®© ， xentropy a 
Split On Underscores: ^ Ss 
X Type: 220 
140 
Selected Runs: 100 
data 0.600 


0.200 


0.000 400.0 800.0 1.200k 1.600k 











图 4.7 配置 好 的 TensorBoard 界面 














为 了 理解 TensorBoard 是 如 何 工 作 的 , 我 们 使 用 由 MNIST 数据 集训 练 好 的 分 类 器 构 
成 的 计算 图 作为 例子 ，MNIST 是 手写 图 像 的 数据 集 。 

读者 不 需要 了 解 这 个 模型 的 所 有 部 分 ，TensorBoard 会 展示 在 TensorFlow 中 实现 的 
机 器 学 习 模 型 的 流程 图 。 

因此 ， 我 们 首先 导入 TensorFlow， 并 使 用 TensorFlow 帮助 函数 加 载 所 需 的 数据 集 。 
这 些 帮 助 函数 将 检查 你 是 否 已 经 下 载 了 数据 集 ， 如 果 未 下 载 ， 那 么 它 会 自动 下 载 。 








T 











import tensorflow as tf 


# Using TensorFlow helper function to get the MNIST dataset from tensorflow.examples. 
tutorials.mnist import input data 


mnist dataset - input data.read data sets("/tmp/data/", one hot-True) 


Output: 

Extracting /tmp/data/train-images-idx3-ubyte.gz 
Extracting /tmp/data/train-labels-idxl-ubyte.gz 
Extracting /tmp/data/t10k-images-idx3-ubyte.gz 
Extracting /tmp/data/tl0k-labels-idxl-ubyte.gz 


接 下 来 ， 定 义 超 参数 (可 用 于 微调 模型 性 能 的 参数 ) 和 模型 的 输入 。 


# hyperparameters of the the model (you don't have to understand the functionality 


of each parameter) 


.rr 
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learning_rate = 0.01 

num_training_epochs = 25 

train batch size = 100 

display epoch = 1 

logs path = '/tmp/tensorflow tensorboard/' 


Define the computational graph input which will be a vector of the image pixels 
Images of MNIST has dimensions of 28 by 28 which will multiply to 784 


input values = tf.placeholder(tf.float32, [None, 784], name-'input values') 








Define the target of the model which will be a classification problem of 10 classes 
from 0 to 9 
target values = tf.placeholder(tf.float32, [None, 10], 


name-'target values!) 


# Define some variables for the weights and biases of the model 
weights = tf.Variable(tf.zeros([784, 10]), name='weights') 
biases = tf.Variable(tf.zeros([10]), name='biases') 


现在 需要 建立 模型 并 定义 一 个 将 要 优化 的 损失 函数 。 











# Create the computational graph and encapsulating different operations to different 
scopes 
# which will make it easier for us to understand the visualizations of TensorBoard 
with tf.name_scope('Model'): 

# Defining the model 

predicted values = tf.nn.softmax(tf.matmul(input values, weights) + biases) 


with tf.name_scope('Loss'): 

# Minimizing the model error using cross entropy criteria 

model cost = tf.reduce_mean (- 
tf.reduce_sum(target_values*tf.log(predicted_values), reduction indices-1)) 


with tf.name scope('SGD'): 
# using Gradient Descent as an optimization method for the model cost above 
model optimizer - 


tf.train.GradientDescentOptimizer (learning rate).minimize (model cost) 


with tf.name scope('Accuracy!): 

#Calculating the accuracy 

model accuracy = tf.equal(tf.argmax(predicted values, 1), 
tf.argmax(target values, 1) 

model accuracy = tf.reduce mean(tf.cast(model accuracy, tf.float32)) 


—— [yj 
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# TensorFlow use the lazy evaluation strategy while defining the variables 

# So actually till now none of the above variable got created or 

initialized 

init = tf.global variables initializer() 

定义 summary 变量 ， 用 于 监视 特定 变量 发 生 的 变化 ， 如 损失 值 以 及 整个 训练 过 程 中 
的 拟 合 情 况 。 


Create a summary to monitor the model cost tensor 




















tf.summary.scalar("model loss", model cost) 


Create another summary to monitor the model accuracy tensor 
tf.summary.scalar("model accuracy", model accuracy) 








Merging the summaries to single operation 


merged summary operation = tf.summary.merge all() 


最 后 ， 我 们 将 通过 定义 一 个 会 话 变量 来 运行 模型 ， 该 变量 将 用 于 执行 刚刚 构建 的 计 


























# kick off the training process 
with tf.Session() as sess: 


# Intialize the variables 


sess.run(init) 


# operation to feed logs to TensorBoard 
summary writer = tf.summary.FileWriter(logs path, 
graph-tf.get default graph()) 


# Starting the training cycle by feeding the model by batch at a time 


for train epoch in range (num training epochs): 


average cost = 0. 

total num batch = int(mnist dataset.train.num examples/train batch size) 
# iterate through all training batches 

for i in range(total num batch): 

batch xs, batch ys = mnist dataset.train.next batch(train batch size) 


# Run the optimizer with gradient descent and cost to get the loss 
# and the merged summary operations for the TensorBoard 

., C, Summary = sess.run([model optimizer, model cost, 
merged summary operation], 

feed dict-(input values: batch xs, target values: batch ys}) 


一 一 一 一 一 一 一 一 
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write statistics to the log et every iteration 


summary _writer.add_summary (summary, train epoch * total num batch + i) 


computing average loss 
average cost += c / total num batch 








Display logs per epoch step 
if (train epoch+1) $ display epoch == 
print("Epoch:", '$03d' $ (train epoch+1), "cost=", "{:.9f}".format (average_ 


cost)) 
print("Optimization Finished!") 


# Testing the trained model on the test set and getting the accuracy compared 
to the actual labels of the test set 

print("Accuracy:", model accuracy.eval((input values: 
mnist dataset.test.images, target values: mnist dataset.test.labels])) 


print("To view summaries in the Tensorboard, run the command line:\n" \ 
"--»tensorboard --logdir-/tmp/tensorflow tensorboard " \ 
"\nThen open http://0.0.0.0:6006/ into your web browser") 


训练 过 程 的 输出 应 该 与 以 下 输出 类 似 。 




















Epoch: 001 cost= 1.183109128 
Epoch: 002 cost= 0.665210275 
Epoch: 003 cost= 0.552693334 
Epoch: 004 cost= 0.498636444 
Epoch: 005 cost= 0.465516675 
Epoch: 006 cost= 0.44261838 

Epoch: 007 cost= 0.425522513 
Epoch: 008 cost= 0.412194222 
Epoch: 009 cost= 0.401408134 
Epoch: 010 cost= 0.392437336 
Epoch: 011 cost= 0.384816745 
Epoch: 012 cost= 0.378183398 
Epoch: 013 cost= 0.372455584 
Epoch: 014 cost= 0.367275238 
Epoch: 015 cost= 0.362772711 
Epoch: 016 cost= 0.358591895 
Epoch: 017 cost= 0.354892231 
Epoch: 018 cost= 0.351451424 
Epoch: 019 cost= 0.348337946 
Epoch: 020 cost= 0.345453095 
Epoch: 021 cost= 0.342769080 
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Epoch: 022 cost= 0.340236065 

Epoch: 023 cost= 0.337953151 

Epoch: 024 cost= 0.335739001 

Epoch: 025 cost= 0.333702818 

Optimization Finished! 

Accuracy: 0.9146 

To view summaries in the Tensorboard, run the command line: 
--»tensorboard --logdir-/tmp/tensorflow tensorboard 

Then open http://0.0.0.0:6006/ into your web browser 


要 在 TensorBoard 中 查看 统计 数据 ， 需 要 在 终端 中 使 用 以 下 命令 。 





tensorboard --logdir=/tmp/tensorflow tensorboard 
然后 ， 在 Web 浏览 器 中 打开 http://0.0.0.0:6006/。 
当 打 开 TensorBoard 时 ， 你 应 该 得 到 图 4.8 所 示 的 界 图 。 
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图 4.8 打开 的 TensorBoard 界 
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这 显示 了 我 们 正在 监控 的 变量 ， 例 如 模型 的 准确 性 、 模 型 的 拟 合 度 如 何 变 得 更 高 、 
模型 的 损失 值 以 及 模型 在 整个 训练 过 程 中 的 变化 情况 。 通 过 这 个 例子 发 现 ， 这 是 一 个 正 
常 的 学 习 过 程 。 但 有 了 时 我 们 会 发 现 准 确 度 和 模型 损失 值 或 者 想 要 跟踪 一 些 其 他 变量 在 整 
个 会 话 期 间 会 随机 发 生变 化 以 及 它们 如 何 变 化 ， 所 以 TensorBoard 有 助 于 我 们 发 现任 何 
随机 性 变化 或 者 其 他 错误 。 
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47 总 结 


另外 ， 如 果 切 换 到 TensorBoard 中 的 GRAPHS 选项 卡 ， 将 会 看 到 在 前 面 的 代码 中 构 
建 的 计算 图 ， 如 图 4.9 所 示 。 
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图 4.9 TensorBoard 中 的 GRAPHS 选项 卡 界 面 
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本 章 介 绍 了 在 Ubuntu 和 Mac 系统 上 TensorFlow 的 安装 过 程 , 概述 了 TensorFlow 编 
程 模 型 ， 并 解释 了 可 用 于 构建 复杂 模型 的 不 同类 型 的 基本 节点 ， 以 及 如 何 使 用 会 话 对 象 
从 TensorFlow 获取 输出 。 另 外 ， 本 章 还 介绍 了 TensorBoard 以 及 为 什么 它 有 助 于 调试 和 
分 析 复 杂 的 深度 学 习 应 用 程序 。 


第 5 章 将 对 神经 网 络 和 多 层 神 经 网 络 背 后 的 机 制 做 一 个 详细 的 介绍 ， 同 时 还 将 介绍 
一 些 TensorFlow 的 基本 示例 ， 并 演示 如 何 将 它 用 于 回归 和 分 类 问题 。 
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第 5 章 
TensorFlow 基础 示例 实战 














本 章 将 解释 TensorFlow 背后 的 主要 计算 概念 ， 即 计算 图 模型 ， 并 演示 如 何 通过 实现 
线性 回归 和 逻辑 回归 使 读者 走 上 学 习 深 度 学 习 知 识 的 正轨 。 


本 章 将 介绍 以 下 内 容 。 
@ 神经 元 的 结构 。 

@ 激活 函数 。 

e 前 馈 神 经 网 络 。 

e 需要 多 层 网 络 的 原因 。 

@ TensorFlow 术语 回顾 。 

e 构建 与 训练 线性 回归 模型 。 
e 构建 与 训练 逻辑 回归 模型 。 


本 章 将 首先 解释 单个 神经 元 实际 上 可 以 做 什么 ， 并 基于 此 ， 引 出 工程 对 多 层 神经 网 络 的 需 
求 。 接 下 来 ， 本 章 将 更 详细 地 介绍 TensorFlow 中 使 用 /可 用 的 主要 概念 和 工具 ， 以 及 如 何 使 用 这 
些 工 具 构 建 简单 的 示例 ， 如 线性 回归 模型 和 你 辑 回归 模型 。 


5.1 神经 元 的 结构 

神经 网 络 是 一 种 计算 模型 ， 它 主要 受到 人 类 大 脑 的 神经 网 络 处 理 传 入 信息 的 方式 的 启 
发 。 神 经 网 络 在 机 器 学 习 研究 (特别 是 深度 学 习 ) 和 行业 应 用 方面 取得 了 巨大 突破 ， 例 如 在 
计算 机 视觉 、 语 音 识别 和 文本 处 理 方面 取得 的 突破 性 成 果 。 在 本 章 中 ， 我们 将 尝试 研究 一 种 
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特定 类 型 的 








经 网 络 ， 它 称 为 多 层 感知 机 。 
生物 学 中 的 激活 和 连 

人 类 大 脑 的 基本 计算 
过 10 ^—10P 个 突 触 相 连 。 


接 





























经 系统 中 有 大 约 860 亿 个 神经 元 ， 它 们 通 


5. 神经 元 的 结构 




















图 5.1 所 示 为 一 种 生物 神经 元 。 图 5.2 所 示 为 相应 的 数学 模型 。 在 生物 神经 元 


H 





~ 





个 神经 元 接收 来 自 其 树 突 的 输入 信号 ， 然 后 沿 其 向 
离 并 通过 突 触 连接 到 





























神经 元 。 





向 细胞 体 
传递 的 脉冲 










7 从 细胞 体 
细胞 体 
图 5.1 ABL SES 





图 
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cod 











突 产 生 输 出 信号 ， 其 中 轴 突 最 后 被 








传 出 的 脉冲 


片 源 





GitHub 网 站 ) 














T0 





神经 元 的 轴 突 


(on 











图 








5.2 大脑 计 算 单元 的 数学 模型 (图 











Hn 





} 轴 突 的 输出 
激活 函数 


原 自 GitHub 网 站 ) 
































在 神 
触 强 


UE oo, 经 j 


i HE 
行 学 习 ， 它 个 














法 运算 得 到 x,@, 。 
] 也 是 控制 特定 神经 元 对 另 一 个 






































们 全 部 相 加 。 如 果 最 终结 果 高 了 


此 外 ， 值 得 一 提 的 是 ， 因 为 需要 控 
数 。 实 际 上 ， 激 活 函 数 的 一 个 共同 选择 是 sigmoid 
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经 元 的 相应 数学 计算 模型 中 ， 治 着 轴 突 传输 
这 个 想法 的 目的 是 使 突 触 的 权 本 
25 JUR TW RE 


此 外 ， 在 图 5.2 的 基本 计算 模型 中 ， 树 突 将 信号 传送 到 3 


L 





的 信号 x, 与 其 他 神经 元 树 突 上 的 突 


/强度 w 通过 网 络 ; 
要 因素 。 



































细胞 体 ， 然 后 在 那里 将 它 





F 某 个 阔 值 ， 则 可 以 在 计算 模型 中 激活 神经 元 。 
上 1 轴 突 上 输出 信号 的 频率 ， 所 以 需要 使 用 激活 函 
函数 wo 











因为 它 接受 实 值 输入 (累加 之 





He 


























后 的 信号 强度 ) 





并 将 输入 压缩 到 0 一 1。 读 者 将 在 和 


后 看 到 这 些 激 活 函数 的 




















"He 
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生物 学 模型 所 对 应 的 数学 模型 如 图 5.2 所 示 。 


神经 网 络 中 的 基本 计算 单元 是 神经 元 ， 也 称 为 节点 或 单元 。 它 从 一 些 其 他 节点 或 儿 
部 源 接收 输入 并 计算 输出 。 每 个 输入 都 有 一 个 相关 的 权重 ( w )， 权 重 是 根据 其 相对 于 其 















































他 输入 的 重要 性 来 分 配 的 。 节 点 将 使 用 函数 1( 稍 后 定义 〉 应 用 于 其 输入 的 加 权 和 。 























综 上 所 述 ， 神 经 网 络 的 计算 单元 通常 称 作 神 经 元 、 节 点 或 单元 。 
每 个 神经 元 是 从 先前 的 神经 元 或 者 外 部 源 接收 输入 ， 然 后 它 对 该 输入 进行 一 些 处 理 























以 产生 所 谓 的 激活 状态 。 该 神经 元 的 每 个 输入 都 与 其 对 应 的 权重 w 相关 联 ， 权重 w 表示 








连接 的 强度 ， 也 表示 该 输入 的 重要 性 。 
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5.2. 激活 函数 








因此 ， 神 经 网 络 中 神经 元 的 最 终 和 输出 是 输入 及 其 对 应 权重 w 的 加 权 和 ， 人 然后 神经 元 
通过 激活 函数 传递 加 权 求 和 后 的 输出 ， 如 图 5.3 所 示 。 


1 
| 
Wi 
一 
P d 
X2 
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图 5.3 单个 神经 元 




















神经 元 的 输出 如 图 5.3 所 示 。 通 过 激活 函数 ， 该 神经 元 输出 非 线性 结果 。 该 函数 f 


就 称 为 激活 函数 。 激 活 函 数 的 主 











E 要 作用 如 下 。 





e 把 神经 元 的 输出 变 为 非 线 性 表示 方式 。 这 很 重要 ， 因 为 现实 世界 中 的 大 多 数 数据 

















都 是 非 线 性 的 ， 我 们 肯定 想 要 神经 元 学 习 这 些 非 线性 表示 。 


e 将 输出 压缩 到 特定 范围 





内 。 











每 个 激活 函数 (或 非 线性 表示 方式 ) 都 会 对 输入 的 单个 数 执行 某 个 固定 的 数学 运算 。 
我 们 可 能 会 在 实践 中 遇 到 多 种 激活 函数 。 
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52 激活 函数 


因此 ， 这 里 将 简要 介绍 最 常见 的 激活 函数 。 














5.2.1 sigmoid 














在 历史 上 ， sigmoid UG AER 
缩 到 [0,1]， 如 图 5.4 所 示 。 























j。 此 函数 接受 实 值 输入 并 将 它 压 

















图 $.4 sigmoid 激活 函数 


5.2.2 tanh 








tanh 是 另 一 种 能 够 接受 一 些 负 值 输入 的 激活 函数 。tanh 接受 一 个 实 值 输入 并 将 它们 
压缩 到 [-1,1]， 如 图 5.5 所 示 。 


tanh(x) 226(2x) -1 





































































































图 5.5 tanh 激活 函数 
5.2.3 ReLU 

修正 线性 单元 (Rectified Linear Unit , ReLU) 不 输出 负 值 ， 它 接受 实 值 输入 并 将 其 
BREVE BUE (将 负 值 替换 为 零 )， 如 图 5.6 所 示 。 
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f(x)= max(0,x) 


ReLU 


0.0 


图 5.6 ReLU 激活 函数 











下 面 讨论 偏差 (bias) 的 重要 性 。 偏 差 的 主要 功能 是 为 每 个 节点 提供 一 个 可 训练 的 
常数 值 〈 除 了 节点 接受 的 正常 输入 之 外 )。 请 参考 stackoverflow 网 站 ， 了 解 偏 差 在 神经 
元 中 的 作用 以 及 更 多 信息 。 


5.3 ”前 馈 神经 网 络 


前 馈 神经 网 络 (feed-forward neural network) 是 第 一 种 最 简单 的 人 工 神经 网 络 。 它 包含 
多 层 神经 元 〈 节 点 )。 相 邻 层 的 节点 之 间 有 连接 或 边 。 所 有 这 些 连 接 都 具有 与 之 相关 的 权重 。 






















































































图 5.7 所 示 为 一 个 前 馈 神 经 网 络 的 简单 例子 。 
resi 





nil 


输出 








nil 


输入 


bt] 

















图 5.7 一 个 前 馈 神 经 网 络 的 例子 
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54 需要 多 层 网 络 的 原因 


在 前 馈 网 络 中 ， 信 息 仅 在 一 个 方向 上 传播 ， 从 输入 节点 向 前 移动 ， 通 过 隐藏 节点 《〈 如 
果 有 的 话 ) sah sh 节点 。 网 络 中 没有 环 或 循环 (前 馈 网 络 的 这 种 属性 不 同 于 循环 神经 网 
络 ， 循 环 神经 网 络 中 节点 之 间 的 连接 形成 一 个 循环 )。 

































































54 需要 多 层 网 络 的 原因 


多 层 感知 器 (multi-layer perceptron, MLP) 包含 一 个 或 多 个 隐藏 层 〈 除 了 一 个 输入 
层 和 一 个 输出 层 之 外 )。 和 单 层 感知 器 只 能 学 习 线 性 函数 不 同 ，MLP 也 可 以 学 习 非 线性 
图 5.8 所 示 为 具有 单个 隐藏 层 的 MLP。 注 意 ， 所 有 连接 都 具有 与 之 关联 的 权重 ， 但 
图 中 仅 显 示 了 3 个 权重 (wo、wi 和 wa. 



























































输入 层 隐藏 层 输出 层 





eru = f CAM) = 于 (wox1+wWiXi+W2X2) 
图 5.8 ”含有 单个 隐藏 层 的 多 层 感知 器 
































输入 层 有 3 个 节点 ， 偏 差 节 点 的 值 为 1， 另 外 两 个 节点 以 x 和 x 作为 外 部 输入 (这 
取决 于 输入 数据 集 的 数值 )。 如 前 所 述 , 输入 层 中 不 执行 任何 计算 , 因此 输入 层 中 节点 的 
偷 出 分 别 为 1、x 和 x，。， 把 它们 3 个 输入 隐藏 层 。 

隐藏 层 也 有 3 个 节点 ， 偏 差 节 点 的 输出 为 1。 隐藏 层 中 其 他 两 个 节点 的 输出 取决 于 
输入 层 Cl. o Al xy) 的 输出 以 及 连接 线 〈 边 ) 上 相关 的 权重 。 注意, f 指 的 是 激活 函数 。 
然后 将 这 些 输 出 传 到 输出 层 中 的 节点 。 

输出 层 有 两 个 节点 ， 它 们 从 隐藏 层 获取 输入 ， 并 执行 与 突出 显示 的 隐藏 节点 相似 的 
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% 5 2 TensorFlow 基础 示例 实战 





计算 。 得 到 的 这 些 计 算 结 果 Gy Ally) 可 充当 多 层 感知 器 的 输出 。 
给 定 一 组 特征 和 = xl, x2, =) 和 目标 y， 多 层 感 知 器 可 以 学 习 特 征 与 目标 之 间 的 























关系 ， 并 用 于 分 类 或 回归 。 





























这 里 举 个 例子 以 更 好 地 理解 多 层 感 知 器 ， 假 设 关于 茶 学 生成 绩 的 数 


表 5.1 关于 学 生成 绩 的 数据 集 








ERIK 5.1 所 示 。 




































































学 习 的 小 时 数 期 中 考试 分 数 期 未 考试 结果 
35 67 通过 
12 75 未 通过 
16 89 通过 
45 56 通过 
0 90 未 通过 











左 侧 的 两 个 输入 列 显 示 学 生 学 习 的 小 时 数 和 学 4 
以 有 两 个 值 






































E 的 期 





























习 了 35 小 时 并 且 在 期 中 考试 获得 了 67 分 ， 那 他 最 终 会 通过 期 末 考 试 。 
现在 ， 假 设 读者 想 要 预测 一 名 学 习 25 小 时 并 且 期 中 考试 有 70 分 的 学 生 是 否 会 通过 








期 末 考 试 ， 该 样本 如 表 5.2 所 示 。 


R52 学生 期 末 考 试 结 果 未 知 的 样本 
学 习 的 小 时 数 期 中 考试 分 数 











中 考试 分 数 。 右 侧 的 输出 列 可 
10, 表示 学 生 是 否 通过 期 末 考 试 。 例如， 我 们 可 以 看 到 ， 如 果 学 生 学 


























期 末 考 试 结果 





26 70 














这 是 一 个 二 元 分 类 问题 ， 使 用 MLP 可 以 从 给 定 的 示例 (训练 数据 


























? 





以 





学 习 并 在 给 




















定 新 数据 点 的 情况 下 做 出 正确 的 预测 。 我 们 很 快 就 会 看 至 








= 




















5.4.1 训练 MLP 一 一 反 向 传播 算法 


























MLP 如 何 学 习 这 种 关系 。 








多 层 感知 器 学 习 的 过 程 称 为 反 向 传播 算法 backpropagation algorithm)。 这 里 建议 阅 
读 Quora 网 站 上 Hemanth Kumar 在 “How do you explain back propagation algorithm to a 

















beginner inneural network” 文 章 中 给 出 的 答案 ， 它 清 














楚 地 解释 了 反 癌 传播 





算法 。 














误差 的 反 向 传播 (通常 缩写 为 BackProp ) 是 训练 人 工 神经 网 络 (ANN ) 的 
几 种 方式 之 一 。 它 是 一 种 监督 的 训练 方法 ， 这 意味 着 它 从 有 标记 的 训练 数据 中 
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54 需要 多 层 网 络 的 原因 


学 习 (有 一 个 监督 者 来 指导 学 习 )。 

简单 来 说 ，BackProp 就 像 “ 从 差错 中 学 习 ”。 每 当 出 错时 ， 监 督 者 都 会 纠 
E ANN. 

ANN 由 不 同 层 ( 输 入 层 、 中 间 隐藏 层 和 输出 层 ) 中 的 节点 组 成 。 相 邻 层 的 
节点 之 间 的 连接 具有 与 它们 相关 联 的 权重 。 学 习 的 目标 是 为 这 些 边 分 配 正确 的 
权重 。 给 定 输 入 向 量 ， 这 些 权 重 确定 输出 向 量 是 什么 。 在 监督 学 习 中 ， 标 记 训 
练 集 。 这 意味 着 对 于 某 些 给 定 的 输入 ， 我 们 知道 期 望 /预期 的 输出 〈 标签 ) 





BackProp 算法 : 

最 初 ， 所 有 连接 权重 都 是 随机 分 配 的 。 对 于 训练 数据 集中 的 每 个 输入 ， 激 
活 ANN 并 观察 其 输出 。 将 此 输出 与 我 们 已 知 的 期 望 输出 进行 比较 ， 并 将 误差 
“传播 ” 回 上 一 层 。ANN 记 下 该 误差 并 相应 地 “调整 ”权重 。 重 复 该 过 程 直到 
Hy th aix EK TUE BUA. 

一 旦 上 述 算 法 终止 ,我 们 就 会 有 一 个 “学 习 好 ”的 ANN， 我 们 认为 它 已 准 
备 好 接受 “新 ”输入 。 可 以 认为 这 个 ANN 从 几 个 样本 (标记 数据 ) 及 其 误差 
(误差 传播 ) 中 学 到 了 东西 。 

———Hemanth Kumar 

现在 我 们 已 经 了 解 了 反 向 传播 算法 的 工作 原理 ， 回 到 之 前 关于 学 生成 绩 的 数据 集 。 


图 5.8 所 示 的 MLP 在 输入 层 中 具有 两 个 节点 ， 它 们 表示 输入 小 时 数 和 期 中 考试 成 绩 。 
它 还 有 一 个 带 有 两 个 节点 的 隐藏 层 。 输 出 层 也 有 两 个 节点 ， 上 侧 节 点 输出 期 末 考 试 通过 
(pass) 的 概率 ， 而 下 侧 节 点 输出 未 通过 CfaiD 的 概率 。 


分 类 应 用 会 广泛 使 用 softmax 函数 CJ, GitHub 网 站 ) 作为 MLP 输出 层 中 的 激活 
函数 ， 以 确保 输出 的 概率 总 和 为 1。softmax 函数 接受 任意 实 值 的 向 量 输入 ， 并 将 它 压缩 
成 0 一 1 的 值 向 量 。 因 此 ， 在 这 种 情况 下 : 

通过 的 概率 + 未 通过 的 概率 =1 






















































































































































































5.4.2 ”前 馈 传播 


神经 网 络 中 的 所 有 权重 都 是 随机 初始 化 的 。 这 里 考虑 一 个 特定 的 隐藏 层 节点 并 将 它 
称 为 VY。 假设 从 输入 层 到 该 节点 的 连接 的 权重 分 别 是 wi、w2 和 w3( 见 图 5.8)。 
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然后 神经 网 络 将 第 一 个 训练 样本 作为 输入 〈 对 于 输入 35 和 67， 通 过 期 末 考 试 的 概 
率 是 1). 


e 神经 网 络 的 输入 是 [35,67]。 

e 神经 网 络 所 需 的 输出 (目标 是 [1,0]。 

所 关注 的 节点 的 输出 六 可 以 按照 以 下 方式 计算 Cf 是 诸如 sigmoid 的 激活 函数 )。 
V = fw, +35w, +67w,) 


类 似 地 ， 还 可 以 同时 计算 隐藏 层 中 男 一 节点 的 输出 。 隐 藏 层 中 两 个 节点 的 输出 充当 
偷 出 层 中 两 个 节点 的 输入 。 这 使 我 们 能 够 从 输出 层 中 的 两 个 节点 计算 输出 概率 。 
段 设 输出 层 中 两 个 节点 的 输出 概率 分 别 为 0.4 和 0.6〈 因 为 权重 是 随机 分 配 的 ， 所 以 
输出 也 是 随机 的 )。 可 以 看 到 计算 出 的 概率 (0.4 和 0.6) 与 期 望 的 概率 〈 分 别 为 1 和 0) 
相差 其 远 ， 因 此 ， 可 以 认为 这 次 神经 网 络 的 输出 不 正确 。 

5.4.3 反问 传播 和 权 值 更 新 

这 里 需要 计算 输出 节点 处 的 总 误差 ， 并 使 用 反 向 传播 算法 通过 神经 网 络 将 这 些 误 差 
的 梯度 反 向 传播 回去 。 然 后 ， 使 用 诸如 梯度 下 降 的 优化 方法 来 调整 网 络 中 的 所 有 权重 ， 
目的 是 减少 输出 层 的 误差 。 

假设 与 所 考虑 的 节点 相关 联 的 新 权重 是 Was ws 和 w6( 在 反 向 传播 和 调整 权重 之 后 )。 

如 果 现 在 将 相同 的 样本 作为 输入 传 到 神经 网 络 ， 则 应 该 比 初始 运行 得 更 好 ， 因 为 现 
在 已 经 优化 权重 以 最 小 化 预测 中 的 误差 了 。 与 先前 的 [0.6，-0.4] 相 比 ， 输 出 节点 处 的 误 
差 现 在 减少 到 [0.2，-0.2]。 这 意味 着 网 络 已 经 学 会 正确 分 类 第 一 个 训练 样本 。 

此 后 在 数据 集中 使 用 其 他 训练 样本 重复 此 过 程 ， 这 时 可 以 认为 网 络 已 经 学 会 了 这 些 
例子 。 

如 果 我 们 现在 想 要 预测 一 个 学 习 25 小 时 并 且 在 期 中 考试 中 得 70 分 的 学 生 是 否 会 通 
过 期 末 考 试 ， 可 以 使 用 前 向 传播 步骤 来 得 到 通过 和 未 通过 的 概率 。 

这 里 不 使 用 数学 方程 式 , 也 不 解释 诸如 梯度 下 降 等 概念 , 而 是 试图 解释 算法 的 思想 。 








































































































































































































































































































5.5 TensorFlow 术语 回顾 


本 节 将 概述 TensorFlow 库 以 及 基本 的 TensorFlow 应 用 程序 的 结构 。TensorFlow 是 一 
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个 用 于 创建 大 规模 机 器 学 习 应 用 程序 的 开源 库 ， 它 可 以 模拟 各 种 硬件 (从 Android 设备 
到 异 构 多 GPU 系统 ) 上 的 计算 。 


TensorFlow 使 用 了 特殊 结构 ， 以 便 在 不 同 的 设备 (如 CPU 和 GPU) 上 执行 代码 。 
把 计算 定义 为 计算 图 ， 每 个 计算 图 由 运算 (也 称 为 计算 ) 组 成 ， 因 此 
每 当 我 们 使 用 TensorFlow 时 ， 都 会 在 计算 图 中 定义 一 系列 运算 。 

要 运行 这 些 运 算 ， 我们 需要 将 计算 图 部 署 到 会 话 中 。 会 话 会 转化 
运算 并 将 它们 传递 给 设备 以 便 执行 。 
例如 ， 图 5.9 所 示 为 TensorFlow 中 的 计算 图 。WW、x 和 是 该 图 中 
边 上 的 张 量 。MatMul 表示 对 张 量 WA x 的 运算 ， 之 后 调用 Add, ix e 'e 
里 用 b 添加 前 一 个 运算 符 的 结果 。 把 每 个 运算 的 结果 张 量 传 给 下 一 个 


图 5.9 一 个 简单 的 


运算 ， 直 到 运算 结束 ， 在 结束 处 可 以 获得 所 需 的 结果 。 vul 


为 了 使 用 TensorFlow， 我 们 需要 导入 库 。 这 里 将 它 命名 为 萎 ， 以 便 可 以 通过 写 入 tf. 
和 模块 的 名 称 来 访问 模块 。 



































































































































import tensorflow as tf 


第 一 个 图 的 创建 将 从 使 用 源 操 作 开始 ， 源 操作 不 需要 任何 输入 。 这 些 源 操 作 将 其 信 
轧 传 递 给 其 他 操作 ， 这 些 操 作 实 际 上 将 运行 计算 。 


以 下 是 创建 可 以 输出 数字 的 两 个 源 操 作 的 代码 ， 这 两 个 源 操 作为 A 和 B. 


























A = tf.constant([2]) 
B = tf.constant ([3]) 


之 后 ， 还 将 定义 一 个 简单 的 计算 操作 给 add()， 用 于 对 两 个 元 素 求 和 。 也 可 以 使 用 C= 
A+B, WA PARISH o 











C = tf.add (A,B) 


#C = A + B is also a way to define the sum of the terms 


由 于 计算 图 需要 在 会 话 中 执行 ， 因 此 需要 创建 一 个 会 话 对 象 。 















































session = tf.Session() 


要 观察 计算 图 ， 可 以 运行 会 话 来 获得 先前 定义 的 C 操作 的 结果 。 











result = session.run(C) 


print (result) 
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输出 如 下 。 


[5] 


读者 可 能 认为 将 两 个 数字 相 加 需要 做 很 多 工作 , 1E T fff TensorFlow 的 基本 结构 非常 
重要 ， 这 有 助 于 定义 所 需 的 任何 计算 。TensorFlow 的 结构 允许 它 处 理 不 同 设备 (CPU 或 


aw 


GPU) 上 的 计算 , 甚至 集群 中 的 计算 。 如 果 要 了 解 更 多 相关 信息 , TUS fT 713 th.device(). 
同时 我 们 也 可 以 随意 尝试 使 用 TensorFlow 的 结构 ， 以 便 更 好 地 了 解 它 的 工作 原理 。 如 
果 需 要 了 解 TensorFlow 支持 的 所 有 数学 运算 的 列表 ， 可 以 查看 文档 。 


到 目前 为 止 ， 我 们 了 解 了 TensorFlow 的 结构 以 及 如 何 创建 基本 应 用 程序 。 










































































































































































5.5.1 使 用 Tensorflow 定义 多 维 数 组 
接 下 来 可 以 使 用 如 下 方法 定义 数组 。 








Salar var = tf.constant([4]) 
vector var = tf.constant([5,4,2]) 
matrix var = tf.constant([[1,2,3],[2,2,4],[3,5,5]]) 
tensor = tf.constant( L [[1,2,3],[2,3,4],[3,4,5]] ， 
[[4,5,6]1,[5,6,71, [67,81] , [[7,8,91,[8,9,10], [9,10,111]] ] ) 
with tf.Session() as session: 

result = session.run(salar var) 
print "Scalar (1 entry):\n $s Mn" $ result 
result = session.run(vector var) 
print "Vector (3 entries) :\n $s Mn" $ result 
result = session.run(matrix var) 


o 


print "Matrix (3x3 entries):\n %s \n" % result 








result = session.run (tensor) 

print "Tensor (3x3x3 entries) :\n $s Mn" $ result 
^ 
输出 如 下 。 


Scalar (1 entry): 
2] 


Vector (3 entries) 
5 6 2] 


Matrix (3x3 entries): 
[3.2.3] 
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[2 3 4] 
[3 4 5]] 


Tensor (3x3x3 entries) 








ELAR 25 23] 
3 
3 51] 
[ 5; 06 
5o Oe. 
T> 8] 
[[ 7 8 9 
8 9 10 
9 10 1111] 









































既然 我 们 已 经 了 解 了 这 些 数据 结构 ， 这 里 建议 根据 它们 的 结构 类 型 使 用 它们 实现 一 
些 以 前 的 函数 来 查看 其 行为 。 


























Matrix one = tf.constant([[1,2,3],[2,3,4],[3,4,5]]) 
Matrix_two = tf.constant([[2,2,2],[2,2,2],[2,2,2]]) 
first_operation = tf.add(Matrix_one, Matrix_two) 
second_operation = Matrix_one + Matrix_two 
with tf.Session() as session: 
result = session.run(first_operation) 
print "Defined using tensorflow function :" 
print (result) 
result = session.run(second_operation) 


print "Defined using normal expressions 


print (result) 


输出 如 下 。 


Defined using tensorflow function 
[ (37-445) 
45 6 
& Ga T] 


Defined using normal expressions 
(13.4 :5 
45 6 
5 6 7]] 
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通过 常规 符号 定义 以 及 tensorflow 函数 ， eaque aid 它 也 称 为 
Hadamard 乘积 。 但 是 ， 如 果 想 要 得 到 常规 矩阵 的 乘积 呢 ? 这 里 需要 使 用 另 一 个 名 为 
tfmatmul()f) TensorFlow 函数 。 














Matrix one = tf.constant([[2,3],[3,4]]) 
Matrix two = tf.constant([[2,3],[3,4]]) 
first operation = tf.matmul(Matrix one, Matrix two) 
with tf.Session() as session: 
result = session.run(first operation) 
print "Defined using tensorflow function :" 


print (result) 
输出 如 下 。 


Defined using tensorflow function : 
[[13 18] 
[18 25]] 





我 们 也 可 以 自己 定义 这 个 乘法 ， 但 是 有 一 个 函数 已 经 做 到 了 ， 所 以 不 需要 重新 发 明 
“RD” | 


5.5.2 为 什么 使 用 张 量 
张 量 结构 允许 我 们 按照 自己 的 方式 自由 地 塑造 数据 集 。 
图 像 中 信息 的 编码 方式 在 处 理 图 像 时 非常 有 用 。 


说 到 图 像 ， 很 容易 认识 到 它 上 共有 高 度 和 宽度 ， 因 此 用 二 维 结构 〈 和 矩阵 ) 表示 包含 在 

其 中 的 信息 是 有 意义 的 。 考 虑 到 图 像 有 颜色 ， 要 添加 有 关 颜 色 的 信息 ， 就 需要 另 一 个 维 
度 ， 那 时 张 量 会 变 得 特别 有 用 。 
把 图 像 编 码 为 颜色 通道 ， 图 像 数 据 在 给 定点 的 颜色 通道 中 以 每 种 颜色 的 强度 表示 ， 
的 是 RGB (表示 红色 、 绿 色 和 蓝 色 )。 图 像 中 包含 的 信息 是 图 像 宽度 和 高 度 中 每 
道 颜色 的 强度 ， 原 始 图 像 及 其 3 个 颜色 通道 如 图 5.10 (a) ~ Cd) 所 示 。 


Vm (b) 红色 通道 (c) 绿色 通道 (d) 蓝 色 通道 


图 5.10 一 张 图 像 中 不 同 的 颜色 通道 
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因此 ， 在 每 个 点 宽度 和 高 度 对 应 的 红色 通道 强度 可 以 用 和 矩阵 表示 ， 对 于 蓝 色 和 绿色 
通道 也 是 如 此 。 我 们 最 终 得 到 3 个 矩阵 ， 当 它们 组 合 在 一 起 时 ， 便 形成 了 一 个 张 量 。 


5.5.3 ”变量 


现在 我 们 对 数据 结构 已 经 很 熟悉 了 ， 接 下 来 看 看 TensorFlow 如 何 处 理 变 


要 定义 变量 ， 这 里 使 用 命令 tf. maid): 为 了 能 够 在 计算 图 中 使 用 变量 ， 有 必要 在 
会 话 中 运行 计算 图 之 前 对 它们 进行 初始 化 。 这 是 通过 运行 tfglobal variables initializer() 
来 完成 的 。 

要 更 新 变量 的 值 ， 只 须 执行 一 个 赋值 操作 。 
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state = tf.Variable (0) 





首先 创建 一 个 简单 的 计数 器 ， 一 个 一 次 增加 一 个 单位 的 变量 。 








one = tf.constant (1) 
new_value = tf.add(state, one) 


update = tf.assign(state, new_value) 














必须 通过 在 启动 图 形 后 运行 初始 化 操作 来 初始 化 变量 。 首 先 要 将 初始 化 操作 添加 到 
图 中 。 




















init op = tf.global variables initializer () 
然后 启动 一 个 运行 图 的 会 话 。 


这 里 首先 初始 化 变量 , 然后 输出 状态 变量 的 初始 值 ,最 后 运行 更 新 状态 变量 的 操作 ， 
并 在 每 次 更 新 后 输出 结果 。 






































with tf.Session() as session: 
session.run (init op) 
print (session.run(state) ) 
for _ in range(3): 
session.run (update) 


print (session.run(state) ) 


输出 如 下 。 
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2 
3 


5.5.4 占 位 符 

现在 , 我 们 已 经 知道 如 何在 TensorFlow 中 操作 变量 , 但 是 如 何在 TensorFlow 模型 之 
外 提供 数据 呢 ? 

如 果 要 从 模型 外 部 向 TensorFlow 模型 提供 数据 ， 则 需要 使 用 占 位 符 。 
那么 ， 这 些 占 位 符 是 什么 ? 它们 做 了 什么 ? 占 位 符 可 以 看 作 模 型 中 的 孔 ， 我 们 可 以 
传递 数据 到 孔 中 。 使 用 tfplaceholder(datatype) 创 建 占 位 符 ， 其 中 datatype 指定 数据 类 型 
(整数 、 浮 点 数 、 字 符 串 和 布尔 值 ) 及 其 精度 (8 位 、16 位 、32 位 和 64 位 )。 

可 以 使 用 相应 Python 语法 定义 每 种 数据 类 型 ， 如 表 5.3 所 示 。 


























































































































表 5.3 Tensorflow 中 不 同 数据 类 型 的 定义 


















































































































































数据 类 型 Python 类 型 描述 
DT_FLOAT tf.float32 32 位 浮 点 数 
DT_DOUBLE tf.float64 64 位 浮 点 数 
DT_INT8 tf.int8 8 位 有 符号 整数 
DT INTI6 tfintl6 16 位 有 符号 整数 
DT_INT32 tf.int32 32 位 有 符号 整数 
DT_INT64 tf.int64 64 位 有 符号 整数 
DT UINT8 tf.uint8 8 位 无 符号 整数 
DT_STRING tf.string 可 变 长 度 的 字 节 数组 ， 每 一 个 张 量 元 素 都 是 一 个 字 节 数组 
DT_BOOL tf.bool 布尔 型 
DT_COMPLEX64 tf.complex64 两 个 32 位 浮 点 数 〈 实 部 和 虚 部 组 成 的 复数 
DT_COMPLEX128 tf.complex 128 两 个 64 位 浮 点 数 〈( 实 部 和 虚 部 ) 组 成 的 复数 
DT_QINTS tf.qint8 于 量化 Ops 的 8 位 有 符号 整数 
DT_QINT32 tf.qint32 于 量化 Ops 的 32 位 有 符号 整数 
DT_QUINTS8 tf.quint8 -量化 Ops 的 8 位 无 符号 整数 






































接 下 来 创建 一 个 占 位 符 。 





a-tf.placeholder(tf.float32) 
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同时 也 定义 一 个 简单 的 乘法 操作 。 

b=a*2 

现在 ， 需 要 定义 并 运行 会 话 。 因 为 我 们 在 初始 化 会 话 时 在 模型 中 创建 了 一 个 用 于 传 
递 数据 的 洞 ， 所 以 这 里 不 得 不 对 数据 进行 填充 ， 否 则 会 出 现 错误 。 

为 了 将 数据 传递 给 模型 ， 需 要 使 用 另 一 个 参数 feed_dict 来 调用 会 话 。 我 们 应 该 在 其 
中 传递 一 个 包含 每 个 占 位 符 名 称 及 其 相应 数据 的 字典 。 


with tf.Session() as sess: 











































































































result = sess.run(b, feed dict={a:3.5}) 


print result 


输出 如 下 。 
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因为 TensorFlow 中 的 数据 以 多 维 数组 的 形式 传递 , 所 以 这 里 可 以 通过 占 位 符 传 递 任 
何 类 型 的 张 量 来 获得 简单 乘法 运算 的 结果 。 
dictionary={a: [ [ [1,2,3], [4,5,6], [7,8,9], [10,11,12] ] , [ 


[13,14,15],[16,17,18],[19, 20,21], [22,23,24] ] ] } 


with tf.Session() as sess: 








result = sess.run(b,feed dict-dictionary) 


print result 


输出 如 下 。 
Lid 2- 4. 6. 
8 10. 12 








5.5.5 操作 


操作 是 表示 计算 图 上 张 量 之 间 数 学 运算 的 节点 。 这 些 操作 可 以 是 任何 类 型 的 函数 ， 
如 张 量 加 法 和 张 量 减 法 ， 或 者 可 能 是 激活 函数 。 
tfmatmul. tfadd 和 tf.nn.sigmoid 是 TensorFlow 中 的 一 些 操作 。 它 们 类 似 于 Python 
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H 








PAPA, (H ELBETEHI T KR, ARARAT EXE BRE o 
其 他 操作 可 以 在 TensorFlow 官网 上 轻松 找到 。 
下 面 来 看 看 其 中 的 一 些 操作 。 
































a = tf.constant([5]) 

b = tf.constant([2]) 

c = tf.add(a,b) 

d = tf.subtract (a,b) 

with tf.Session() as session: 
result = session.run (c) 
print 'c =: $s' % result 
result = session.run (d) 
print 'd =: $s' % result 

输出 如 下 。 

cud 
a=: [3] 

















t£nn.sigmoid 是 一 个 激活 函数 ， 它 有 点 复杂 ， 但 是 这 个 函数 有 助 于 学 习 模 型 来 评估 
言 息 的 好 坏 。 











5.6 构建 与 训练 线性 回归 模型 


根据 第 2 章 对 线性 回归 的 解释 ， 这 里 将 依赖 该 定义 来 构建 简单 的 线性 
现在 从 导入 此 次 实现 必需 的 包 开 始 。 














H 


归 模 型 。 











H 


























import numpy as np 

import tensorflow as tf 

import matplotlib.patches as mpatches 
import matplotlib.pyplot as plt 
plt.rcParams['figure.figsize'] = (10, 6) 











Be PORTE X EAE RE. 





input values = np.arange(0.0, 5.0, 0.1) 


input values 


Output: 
atray (E O0... Oily 0D.2y (D.3,4 70248, (0.5, (0.5. (QUIS 0.8; O29. do. 
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Led, 1.2, 1.3, Ldr 1.5, 1.6, 1.7, 148, 1 

2.2, 2.9, 2.4, 2:5, 2:0, 2h 2:8,. 2:9, Bap 3, 3.2, 
3.3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 4., 4 

4.4, 4.5, 4.6, 4.7, 4.8, 4.9] 


##You can adjust the slope and intercept to verify the changes in the graph 
weight-1 

bias=0 

output = weight*input_values + bias 

plt.plot (input_values, output) 

plt.ylabel('Dependent Variable') 

plt.xlabel ('Indepdendent Variable') 

plt.show() 


输出 如 下 。 
输出 如 图 5.11 所 示 。 


Dependent Variable 





0 1 2 3 4 5 
Indepdendent Variable 


图 5.11 因 变 量 与 自 变量 的 可 视 化 












































现在 ， 看 看 如 何 将 线性 回归 模型 解释 为 TensorFlow 代码 。 


使 用 Tensorflow 实现 线性 回归 
对 于 第 一 部 分 ， 本 节 将 生成 随机 数据 点 并 定义 线性 关系 。 我 们 将 使 用 TensorFlow 来 
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调整 并 获得 正确 的 参数 。 





input values = np.random.rand(100).astype(np.float32) 


这 个 例子 使 用 的 公式 是 : 














Y=2X+3 
个 公式 没什么 特别 之 处 ， 它 只 是 用 来 生成 数据 点 的 模型 。 实 际 上 ， 我 们 可 以 将 参 
E a 
它 更 有 趣 。 



























































output values = input_values * 2 + 3 
output values = np.vectorize(lambda y: y + np.random.normal (loc=0.0, 


scale=0.1)) (output values) 


下 面 列 出 一 些 生成 的 数据 。 























list (zip (input_values, output_values) ) [5:10] 
输出 如 下 。 


[(0.25240293, 3.474361759429548), 
(0.946697, 4.980617375175061), 
(0.37582186, 3.650345806087635), 
(0.64025956, 4.271037640404975), 
(0.62555283, 4.37001850440196)] 











首先 ， 需 要 随机 地 对 变量 weight 和 bias 进行 初始 化 ， 并 定义 线性 函数 。 











weight = tf.Variable(1.0) 
bias = tf.Variable (0.2) 


predicted_vals = weight * input_values + bias 
在 典型 的 线性 回归 模型 中 ， 需 要 最 小 化 可 训练 的 线性 函数 的 预测 值 减 去 目标 值 〈 已 
有 的 数据 ) 的 平方 误差 ， 因 此 这 LR HAM LE RHI ERA. 


为 了 计算 损失 值 ， 这 里 使 用 tfreduce_mean0。 此 函数 求 多 维 张 量 的 平均 值 ， 结 果 可 
以 具有 不 同 的 维度 。 
























































XE 
































model loss = tf.reduce mean(tf.square(predicted vals - output values)) 
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然后 ， 定 义 优化 器 方法 。 这 里 将 使 用 简单 的 梯度 下 降 法 ， 学 习 率 为 0.5。 


现在 定义 计算 图 的 训练 方法 ， 但 我 们 将 使 用 什么 方法 来 最 小 化 损失 呢 ? 它 就 是 


























tf.train.GradientDescentOptimizer. 


.minimize() 函 数 将 最 小 化 优化 器 的 误差 函数 ， 从 而 产生 更 好 的 模型 。 


model optimizer 














tf.train.GradientDescentOptimizer(0.5) 


train = model optimizer.minimize (model loss) 

















注意 ， 别 忘记 在 运行 计算 图 之 前 初始 化 变量 。 


H 
tj 
p- 
wr 
ll 


sess = tf.Session() 


sess.run(init) 





下 面 正式 开始 优化 3 

















train data = [] 


u 


tf.global variables initializer() 


T 


运行 计算 图 。 








for step in range(100): 


evals = sess.run([train,weight,bias]) [1:] 


if step $ 5 
( 


print(step, evals) 


train data.append(evals) 


输出 如 下 。 

(0, [2.5176678, 

(5, [2.4192538, 

(10, 2.5731843, 
(15, [2.6890132, 
(20, [2.7763696, 
(25, 2.8422525, 
(30, [2.8919399, 
(35, [2.9294133, 
(40, 2.957675, 

(45, [2.9789894, 
(50, [2.9950645, 
(55; 3.0071881, 
(60, [3.0163314, 
(65, 30232272, 
(70, [3.0284278, 
I5, [3...0323503; 
(80, [3.0353084, 





2.9857566]) 
2.3015416] 


NO NM NY NY NY PN 


.0552595 
.0356679 
2.0208921] 
2.0097487]) 
2.0013444]) 
1.995006] 
1. ) 
1.9866205]) 
1.9839015]) 
1.9818509]) 
1.9803041]) 


22219171] 
.1613526]) 
.1156814]) 
.0812368]) 
) 
) 


9902257 
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(85, [3.0375392, 1.9791379]) 
(90, [3.039222, 1.9782581] 
(95, [3.0404909, 1.9775947]) 


下 面 对 拟 合 数据 点 的 训练 过 程 进行 可 视 化 。 


print('Plotting the data points with their corresponding fitted line...') 


























converter = plt.colors 
cr, Gg, Cb = (1.0, 1.0, 0.0) 


for f in train data: 


cb += 1.0 / len(train data) 
cg -= 1.0 / len(train data) 
if cb > 1.0: cb = 1.0 


if og € 0.0: og = 0.0 


[a, b] =f 

fy = np.vectorize(lambda x: a*x + b) (input values) 
line = plt.plot(input values, f y) 

plt.setp(line, color=(cr,cg,cb) ) 


plt.plot(input values, output values, 'ro') 

green line = mpatches.Patch(color='red', label='Data Points') 
plt.legend (handles=[green_line] ) 

plt.show() 


输出 的 可 视 化 结果 如 图 5.12 所 示 。 





mm Data Points 





00 02 04 06 08 10 


归 线 拟 合 的 数据 点 








对 
E] 














5.12 可视化 
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同样 基于 第 2 章 中 对 逻辑 回归 的 解释 ， 这 里 将 在 Tenso 
简单 地 说 ， 逻 辑 回归 通过 logistic/sigmoid 传递 输入 ， 随 后 
所 示 。 
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rFlow 中 实现 逻辑 回归 算法 。 
将 结果 视 为 概率 ， 如 图 5.13 
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模型 输出 
图 $.13 ”区 分 两 个 线性 可 分 的 类 ，0 和 1 




















在 TensorFlow 中 使 用 逻辑 回归 














为 了 在 TensorFlow 中 使 用 逻辑 回归 ， 首 先 需要 导入 将 要 使 用 的 所 有 库 : 

















import tensorflow as tf 
import pandas as pd 


import numpy as np 

import time 

from sklearn.datasets import load_iris 

from sklearn.cross_validation import train_test_spli 


import matplotlib.pyplot as plt 

接 下 来 ， 需 要 加 载 将 要 使 用 的 数据 集 。 在 这 种 情况 下 ， 
因此 ， 没 有 必要 进行 任何 预 处 理 ， 可 以 直接 进行 操作 。 这 上 
随机 分 为 训练 x Fy, Winx 5 y: 














Am 


















































iris dataset = load iris() 


iris input values, iris output values - iris dataset 














七 








我 们 使 用 内 置 的 iris 数据 重 
EE 将 数据 集 分 为 x Aly, 然后 


pa 
o 











;data[i-1,:]; 
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iris dataset.target[:-1] 

iris output values- pd.get dummies(iris output values).values 

train input values, test input values, train target values, 

test target values = train test split(iris input values, 

iris output values, test size-0.33, random state-42) 

现在 ， 需 要 定义 x 和 y， 这 些 占 位 符 将 保存 iris BE CREA bn BE), FRR EAN 
传递 到 算法 的 不 同 部 分 。 可 以 将 占 位 符 视 为 需要 插入 数据 的 空 达 ， 同 时 还 需要 为 它们 提 
供与 数据 形状 相对 应 的 形状 。 稍 后 ， 将 通过 feed. dict (feed 字典 ) 向 占 位 符 提供 数据 ， 
并 将 数据 插入 这 些 占 位 符 中 。 


1. 为 什么 使 用 占 位 符 






























































































































































TensorFlow 的 这 一 特性 使 我 们 能 够 创建 一 种 算法 来 接受 数据 并 了 解数 据 的 形状 ， 而 
无 须知 道 插入 的 数据 量 。 当 在 训练 中 插入 批量 数据 时 ， 在 不 改变 整个 算法 的 情况 下 ， 我 














们 可 以 在 一 步 中 轻松 调整 训练 的 样本 数量 。 








numFeatures is the number of features in our input data. 
In the iris dataset, this number is '4'. 


num explanatory features = train_input_values.shape[1] 


numLabels is the number of classes our data points can be in. 
In the iris dataset, this number is '3'. 


num target values = train target values.shape[1] 


Placeholders 

'None' means TensorFlow shouldn't expect a fixed number in that dimension 
input values = tf.placeholder(tf.float32, [None, num explanatory features]) 
Iris has 4 features, so X is a tensor to hold our data. 

output values = tf.placeholder(tf.float32, [None, num target values]) 








This will be our correct answers matrix for 3 classes. 


2. 设置 模型 的 权重 和 偏差 

与 线性 回归 非常 相似 , 对 于 逻辑 回归 我 们 需要 一 个 共享 变量 权重 矩阵。 这 里 将 WA 
b 初始 化 为 零 张 量 。 由 于 要 学 习 丈 和 2， 因 此 它们 的 初始 值 并 不 重要 。 这 些 变量 是 定义 
回归 模型 结构 的 对 象 ， 可 以 在 训练 变量 后 保存 它们 ， 以 便 以 后 可 以 重用 它们 。 

这 里 将 两 个 TensorFlow 变量 定义 为 参数 ， 这 些 变量 将 保持 逻辑 回归 的 权重 和 偏差 ， 
并 且 它 们 将 在 训练 期 间 不 断 更 新 。 
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请 注意 ， 球 的 形状 为 [4,3]， 这 是 因为 希望 4 维 输入 向 量 乘 以 它 ， 以 产生 不 同类 别 的 
三 维 输出 向 量 。b 的 形状 为 [3]， 因 此 可 以 将 它 添加 到 输出 中 。 此 外 ， 与 占 位 符 〈 基 本 上 
是 等 待 输入 数据 的 空 沉 ) 不 同 ，TensorFlow 变量 需要 使 用 值 (oe) 进行 初始 化 。 


= 


















































#Randomly sample from a normal distribution with standard deviation .01 


weights = 
tf.Variable(tf.random normal([num explanatory features,num target values], 
mean-0, 
stddev=0.01, 


name-"weights")) 


biases = tf.Variable(tf.random normal([1,num target values], 
mean=0, 
stddev=0.01, 


name="biases") ) 


3. 逻辑 回归 模型 

现在 定义 一 些 操作 以 便 正确 地 运行 逻辑 回归 。 通 常 认为 逻辑 回归 是 单个 等 式 。 
$ =sigmoid(WX + b) 

然而 ， 为 了 清楚 起 见 ， 它 可 以 分 为 3 个 主要 组 成 部 分 。 

e 权重 乘 以 特征 算 阵 的 乘法 操作 。 

@ 加 权 特 征 和 偏差 项 的 总 和 。 

e 应 用 的 sigmoid 函数 。 

我 们 会 发 现 这 些 组 件 被 定义 为 3 个 独立 的 操作 。 






























































# Three-component breakdown of the Logistic Regression equation. 

# Note that these feed into each other. 

apply weights = tf.matmul(input values, weights, name-"apply weights") 
add bias = tf.add(apply weights, biases, name-"add bias") 


activation output = tf.nn.sigmoid(add bias, name-"activation") 


正如 之 前 看 到 的 ， 这 里 将 要 使 用 的 函数 是 逻辑 函数 ， 它 将 应 用 了 权重 和 偏差 的 数 
据 作为 自己 的 输入 数据 。 在 TensorFlow 中 ， 此 函数 实现 为 nn.sigmoid 函数 。 实 际 上 ， 
nn.sigmoid 函数 将 加 权 输 入 与 偏差 拟 合 为 0% 一 100% 的 曲线 ， 该 曲线 是 我 们 想 要 的 概 


limi 
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率 函数 。 
4. 训练 


学 习 算 法 的 目标 是 搜索 最 佳 权重 向 量 (w)。 此 搜索 是 一 个 优化 问题 ， 目 的 是 寻找 可 
以 优化 误差 /成 本 函数 的 方法 。 

在 实际 应 用 中 ， 模 型 的 成 本 或 损失 函数 可 能 会 告诉 我 们 模型 非常 糟糕 ， 需 要 最 小 化 
这 个 函数 。 我们 可 以 遵循 不 同 的 损失 或 成 本 标准 。 此 实现 将 使 用 均 方 误差 (mean squared 
error, MSE) 作为 损失 函数 。 


为 了 完成 最 小 化 损失 函数 的 任务 ， 我 们 将 使 用 梯度 下 降 算 法 。 
在 定义 成 本 函数 (cost function) 之 前 ， 需 要 定义 要 训练 的 时 间 以 及 学 习 率 。 
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#Number of training epochs 

num_epochs = 700 

# Defining our learning rate iterations (decay) 

learning rate = tf.train.exponential decay (learning_rate=0.0008, 
global_step=1, 


decay_steps=train_input_values.shape[0], 


decay_rate=0.95, 


staircase=True) 


# Defining our cost function - Squared Mean Error 

model cost = tf.nn.12 loss(activation output - output values, 
name-"squared error cost") 

# Defining our Gradient Descent 

model train = 


tf.train.GradientDescentOptimizer(learning rate).minimize (model cost) 
现在 ， 通 过 会 话 变量 执行 计算 图 。 
首先 ， 需 要 使 用 tfinitialize all_variables() 用 零 或 随机 值 初始 化 权重 和 偏差 项 。 这 个 


初始 化 步骤 将 成 为 计算 图 中 的 一 个 节点 。 当 将 计算 图 放 入 一 个 会 话 时 ， 将 执行 该 操作 并 
创建 变量 。 









































# tensorflow session 


sess = tf.Session() 
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# Initialize our variables. 
init = tf.global variables initializer() 


sess.run(init) 


#We also want some additional operations to keep track of our model's 
efficiency over time. We can do this like so: 

# argmax(activation output, 1) returns the label with the most probability 
# argmax(output values, 1) is the correct label 

correct predictions - 


tf.equal(tf.argmax(activation output,l1),tf.argmax(output values,1l) 


# If every false prediction is 0 and every true prediction is 1, the 
average returns us the accuracy 


model accuracy = tf.reduce mean(tf.cast(correct predictions, "float")) 


Summary op for regression output 


activation summary = tf.summary.histogram("output", activation output) 


Summary op for accuracy 


accuracy summary = tf.summary.scalar("accuracy", model accuracy) 





Summary op for cost 


cost summary - tf.summary.scalar("cost", model cost) 








Summary ops to check how variables weights and biases are updating after 
each iteration to be visualized in TensorBoard 

weight summary = tf.summary.histogram("weights", 
weights.eval(session-sess)) 


bias summary = tf.summary.histogram("biases", biases.eval(session-sess)) 


merged - tf.summary.merge([activation summary, accuracy summary, 
cost summary, weight summary, bias summary]) 


writer - tf.summary.FileWriter("summary logs", sess.graph) 


#Now we can define and run the actual training loop, like this: 


# Initialize reporting variables 


inital_cost = 0 
diff = 1 
epoch_vals = [] 
accuracy_vals = [] 


costs = [] 
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# Training epochs 
for i in range(num_epochs): 
lf a= 1-end diff € .0001: 
print ("change in cost $g; convergence."$diff) 


break 


else: 
# Run training step 
step = sess.run(model train, feed dict-[(input values: 


train input values, output values: train target values]) 


# Report some stats evert 10 epochs 
if i$ 10 == 0: 
# Add epoch to epoch_values 


epoch_vals.append (i) 


# Generate the accuracy stats of the model 
train_accuracy, new_cost = sess.run([model_accuracy, 
model_cost], feed_dict={input_values: train_input_values, output_values: 


train_target_values}) 


Add accuracy to live graphing variable 


accuracy vals.append(train accuracy) 


Add cost to live graphing variable 


costs.append(new cost) 





Re-assign values for variables 





diff = abs(new cost - inital cost) 


cost - new cost 


print("Training step $d, accuracy %g, cost %g, cost change 


oe 


g"$(i, train accuracy, new cost, diff) 


输出 如 下 。 


Training step 0, accuracy 0.343434, cost 34.6022, cost change 34.6022 

.434343, cost 30.3272, cost change 30.3272 
.646465, cost 28.3478, cost change 28.3478 
.646465, cost 26.6752, cost change 26.6752 
.646465, cost 25.2844, cost change 25.2844 
.646465, cost 24.1349, cost change 24.1349 
.646465, cost 23.1835, cost change 23.1835 


M 


[raining step 10, accuracy 


= 


[raining step 20, accuracy 


E 


[raining step 30, accuracy 


= 


[raining step 40, accuracy 


z 


[raining step 50, accuracy 





0 
0 
0 
0 
0 
0 


E 


[raining step 60, accuracy 
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Training step 70, accuracy 0.646465, cost 22.3911, cost change 22.3911 
Training step 80, accuracy 0.646465, cost 21.7254, cost change 21.7254 
Training step 90, accuracy 0.646465, cost 21.1607, cost change 21.1607 
Training step 100, accuracy 0.666667, cost 20.677, cost change 20.677 





Training step 110, accuracy 0.666667, cost 20.2583, cost change 20.2583 
Training step 120, accuracy 0.666667, cost 19.8927, cost change 19.8927 
Training step 130, accuracy 0.666667, cost -5705, cost change 19.5705 
Training step 140, accuracy 0.666667, cost -2842, cost change 19.2842 
Training step 150, accuracy 0.666667, cost .0278, cost change 19.0278 
Training step 160, accuracy 0.676768, cost .7966, cost change 18.7966 
Training step 170, accuracy 0.69697, cost .5867, cost change 18.5867 
Training step 180, accuracy 0.69697, cost .3951, cost change 18.3951 
Training step 190, accuracy 0.717172, cost .2191, cost change 18.2191 


Training step 200, accuracy 0.717172, cost .0567, cost change 18.0567 


Training step 210, accuracy 0.737374, cost 17.906, cost change 17.906 


Training step 220, accuracy 0.747475, cost .7657, cost change 17.7657 
Training step 230, accuracy 0.747475, cost .6345, cost change 17.6345 
Training step 240, accuracy 0.757576, cost .5113, cost change 17.5113 
Training step 250, accuracy 0.787879, cost .3954, cost change 17.3954 
Training step 260, accuracy 0.787879, cost .2858, cost change 17.2858 


Training step 270, accuracy 0.787879, cost 17.182, cost change 17.182 
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Training step 280, accuracy 0.787879, cost .0834, cost change 17.0834 
Training step 290, accuracy 0.787879, cost .9895, cost change 16.9895 
Training step 300, accuracy 0.79798, cost .8999, cost change 16.8999 
Training step 310, accuracy 0.79798, cost .8141, cost change 16.8141 
Training step 320, accuracy 0.79798, cost .732, cost change 16.732 

Training step 330, accuracy 0.79798, cost .6531, cost change 16.6531 
Training step 340, accuracy 0.808081, cost .5772, cost change 16.5772 
Training step 350, accuracy 0.818182, cost .5041, cost change 16.5041 
Training step 360, accuracy 0.838384, cost .4336, cost change 16.4336 
Training step 370, accuracy 0.838384, cost .3655, cost change 16.3655 
Training step 380, accuracy 0.838384, cost .2997, cost change 16.2997 
Training step 390, accuracy 0.838384, cost .2359, cost change 16.2359 
Training step 400, accuracy 0.848485, cost .1741, cost change 16.1741 
Training step 410, accuracy 0.848485, cost .1141, cost change 16.1141 
Training step 420, accuracy 0.848485, cost .0558, cost change 16.0558 
Training step 430, accuracy 0.858586, cost .9991, cost change 15.9991 
Training step 440, accuracy 0.858586, cost 15.944, cost change 15.944 
Training step 450, accuracy 0.858586, cost .8903, cost change 15.8903 
Training step 460, accuracy 0.868687, cost .8379, cost change 15.8379 
Training step 470, accuracy 0.878788, cost .7869, cost change 15.7869 
Training step 480, accuracy 0.878788, cost .7371, cost change 15.7371 
Training step 490, accuracy 0.878788, cost .6884, cost change 15.6884 
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现在 ， 看 看 j 


# test the model against the test set 
print("final accuracy on test set: 
feed_dict={input_values: 


output_values: 


step 
step 
step 
step 
step 
step 
step 
step 
step 
step 
step 


step 





step 
step 
step 
step 
step 
step 
step 


step 





输出 如 下 。 


final accuracy on test set: 


在 测试 集 上 获得 了 0.9 的 准确 度 ， 这 非常 好 ， 我 们 可 以 通过 更 改 迭 代 次 数 来 尝试 获得 


更 好 的 结果 。 


5.8 总 结 


Amet 
图 模型 ， 其 中 包含 一 些 基 本 示例 ， 如 线性 回归 和 逻辑 回归 。 





























500, accuracy 0.878788, 
510, accuracy 0.878788, 


520, accuracy 0.878788, 


530, accuracy 0.888889, 
540, accuracy 0.888889, 
0.89899, 
0.89899, 
0.89899, 
0.89899, 


550, accuracy 
560, accuracy 
570, accuracy 


580, accuracy 


590, accuracy 0.909091, 
600, accuracy 0.909091, 
610, accuracy 0.909091, 
620, accuracy 0.90909 
630, accuracy 0.909091, 
.909091, 
.909091, 
.909091, 
.909091, 
.909091, 
.909091, 


640, accuracy 
650, accuracy 
660, accuracy 
670, accuracy 
680, accuracy 


690, accuracy 








0 
0 
0 
0 
0 
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0. 


~ 








| 练 的 模型 如 何在 iris 数据 


test_target_values}) ) 


9 











test_input_values, 

















cost 15.6409, cost change 15.6409 
cost 15.5944, cost change 15.5944 
cost 15.549, cost change 15.549 
cost 15.5045, cost change 15.5045 
cost 15.4609, cost change 15.4609 
cost 15.4182, cost change 15.4182 
cost 15.3764, cost change 15.3764 
cost 15.3354, cost change 15.3354 
cost 15.2952, cost change 15.2952 
cost 15.2558, cost change 15.2558 
cost 15.217, cost change 15.217 
cost 15.179, cost change 15.179 
cost 15.1417, cost change 15.1417 
cost 15.105, cost change 15.105 
cost 15.0689, cost change 15.0689 
cost 15.0335, cost change 15.0335 
cost 14.9987, cost change 14.9987 
cost 14.9644, cost change 14.9644 
cost 14.9307, cost change 14.9307 
cost 14.8975, cost change 14.8975 

集 上 执行 ， 因此 根据 测试 集 测试 训练 的 模型 。 








Ss" Sstr(sess.run(model_accuracy, 















































经 网 络 并 解释 了 为 什么 需要 多 层 神经 网 络 , 还 介绍 了 TensorFlow 计算 



























































接 下 来 ， 本 书 将 介绍 更 高 级 的 示例 ， 并 演示 TensorFlow 如 何 用 于 实现 手写 字符 识别 


等 ， 同 时 还 将 介绍 在 传统 机 器 学 习 中 取代 特 生 






































工程 的 架构 工程 的 核心 理念 。 
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第 6 章 
深度 前 饥 神 经 网 络 一 一 
实现 数字 分 类 


前 馈 神经 网 络 (Feed-forward Neural Network, FNN) 是 一 种 特殊 类 型 的 神经 网 络 ， 


其 中 神经 元 之 间 的 链接 /连接 不 构成 环 。 因 此 ， 它 与 本 书后 续 将 要 研究 的 神经 网 络 中 的 其 
他 结构 (如 循环 类 型 神经 网 络 ) 不 同 。FNN 是 一 种 广泛 使 用 的 架构 ， 而 且 它 是 第 一 个 神 
经 网 络 ， 并 且 是 类 型 最 简单 的 。 

本 章 将 会 介绍 一 种 典型 的 FNN 架构 ， 并 使 用 TensorFlow 的 库 来 实现 它 。 在 讲 完了 这 些 
概念 之 后 ， 本 章 会 给 出 一 个 数字 分 类 的 实际 例子 。 这 个 例子 的 问题 是 : 给 定 一 组 包含 手写 数字 
的 图 像 ， 如 何 将 这 些 图 像 分 为 10 个 不 同 的 类 别 (0—9) ? 

本 章 将 包含 以 下 几 个 主题 。 

e 隐藏 单元 与 架构 设计 。 

@ MNIST 数据 集 分 析 。 

@ 数字 分 类 构建 与 训练 模型 。 
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6.1 ”隐藏 单元 与 架构 设计 


在 下 一 节 中 ， 我 们 将 会 回顾 人 工 神 经 网 络 : 它 可 以 很 好 地 完成 分 类 任务 ， 比 如 对 手 














写 数 字 进 行 分 类 。 


假设 现在 的 网 络 如 图 6.1 所 示 。 








第 6 章 经 


如 前 所 述 ， 该 网 络 中 最 左边 的 一 层 称 为 输入 


























1 中 ， 输 


层 ， 该 层 内 的 神经 元 称 为 输入 神经 元 ， 最 右边 一 层 
称 为 输出 层 ， 它 包含 了 输出 神经 元 。 在 本 伪 

出 层 只 包含 单个 输出 神经 元 。 中 间 层 称 为 隐藏 层 ， 
因为 该 层 中 的 神经 元 既 不 是 输入 ， 也 不 是 输出 。 隐 











藏 这 个 词 可 能 昕 起 来 有 点 神秘 
































词 的 时 候 ， 我 党 得 


Ke 


Dy 





UH 






























































网 络 仅 仪 只 有 一 个 隐藏 层 , 但 
网 络 包 含 两 个 隐藏 层 。 
输入 层 
区 | 
这 种 描述 输入 层 、 隐 藏 层 和 输 





























62 ”含有 多 个 隐藏 





第 一 次 听 到 这 个 M 
! 深 刻 的 哲理 或 者 ”图 6.1 含有 一 
数学 意义 ， 但 事实 上 它 真 的 表示 既 不 是 输入 也 不 是 输 昌 




















输出 








Ez ES 











HOA 


层 的 人 工 神经 网 络 








看 特定 的 手写 图 像 是 否 包含 数字 9. 






































要 28x28=784 个 神经 元 。 





数字 9. 
这 种 将 一 层 的 输出 





























顺序 性 意味 着 其 中 并 没有 循环 。 




















首先 ， 需 要 将 输入 图 像 的 像素 提供 给 输入 层 ， 例 如 ， 在 MNIST 数据 集中 ， 
单 色 图 像 。 因 为 每 一 幅 图 都 是 28x28 像素 大 小 的 ， 所 以 为 了 接收 输入 图 








层 的 简单 前 馈 神经 网 络 
,没有 什么 别 的 意思 。 
是 有 些 网 络 有 多 个 隐藏 层 。 例 如， 图 








前 面 这 个 


6.2 所 示 这 个 4 层 的 


显得 非常 简单 。 通 过 一 个 实际 的 例子 来 查 








图 像 是 
像 在 输入 层 中 需 





在 输出 层 中 ,只 需要 一 个 神经 元 , 它 产生 该 图 像 是 否 包含 数字 9 的 概率 (或 分 数 )。 


例如 ， 输 出 值 大 于 0.5 表示 该 图 像 包 含 数字 9， 输 出 值 小 于 0.5 代表 输入 图 像 中 不 包含 


芷 为 下 一 层 的 输入 的 网 络 称 为 前 馈 神 经 网 络 (FNN)。 层 间 的 这 种 
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6.2 MNIST 数据 集 分 析 



























































































































































本 节 将 动手 为 手写 图 像 实现 一 个 分 类 器 。 这 种 实现 可 以 被 视 为 神经 网 络 中 的 “Hello 
world ! ", 

MNIST 是 一 个 广泛 用 于 对 机 器 学 习 技 术 进 行 基准 测试 的 数据 集 。 该 数据 集 包含 一 组 
手写 数字 ， 如 图 6.3 所 示 。 

K| 6.3 MNIST 数据 集中 的 样本 数字 

除了 包含 手写 图 像 之 外 ， 该 数据 集 还 包含 其 对 应 的 标签 。 

本 节 将 会 在 这 些 图 像 上 训练 一 个 基本 的 模型 ， 目 标 是 确定 输入 图 像 中 哪个 数字 是 手 
写 的 。 

另外 ， 我 们 会 发 现 这 里 使 用 几 行 代码 就 能 够 完成 这 个 分 类 任务 ， 但 是 此 实现 背后 的 
想法 是 理解 构建 神经 网 络 解决 方案 的 基本 要 点 。 同 时 ， 在 该 实现 中 本 节 将 介绍 神经 网 络 
的 主要 概念 。 








MNIST 数据 


MNIST 数据 托管 在 YannLecun 的 网 站 上 。 
此 本 节 从 使 用 以 下 两 行 代码 











数 来 下 载 该 数据 集 
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的 是 ，TensorFlow fft s — tehy 
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下 载 该 数据 集 开 始 。 





from tensorflow.examples.tutorials.mnist import input_data 


mnist dataset = input_data.read_data_sets ("MNIST_data/", 


MNIST 数据 分 为 3 部 分 : 
样本 Cmnist.test) 和 5000 个 验 i 


AL 








55000 个 i 








在 机 器 学 习 中 重要 的 是 ， 拥有 在 训练 过 程 中 没有 使 



































学 到 的 东西 确实 是 可 以 泛 化 的 。 
如 前 所 述 ， 每 一 个 MNIST ff 








本 都 有 两 部 分 : 


训练 数据 样本 Cmnist.train )、 
FE 数 据 样 本 Omnist.validation). XX 


one_hot=True) 


10000 个 测试 数据 








划分 方式 非常 重 


























j 过 的 不 同 数据 ， 














手写 数字 图 像 及 


对 应 的 标签 。 





重要 ， 


以 确保 最 终 模 型 所 


训练 
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集 和 测试 集 均 包含 ， 图像 及 其 对 应 的 标签 。 例 如 ， 训 练 图 像 是 mnist.train.images， 训 练 


标签 是 mnist.train.labels。 


每 一 幅 图 像 都 是 28x28 像素 的 ， 并 且 可 以 用 一 个 矩阵 来 表示 ， 如 图 6.4 所 示 。 



























































0 0 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 0 0 0 0 
o o 0 oo o B BM + 0 0 0 0 0 
o 00 00 o H BM o 0 0 0 0 0 
o 00 00 o H B +， 0 0 0 0 0 
o 0 00 00 EN Bg E o o o o o 
25 o o 000 0 0 Bg HM oo o o o o 
o 0 0 00 0 0 E M o o o o o 
0 0 000 0 0 B Bo o o o o 
o 0 0 00 o o0 B BM o © o o o 
o o 0 0 o o0 o0 E B 3 o o o o 
0 0 0 0 0 0 0 E gg 3 o o o o 
0 0 0 0 0 0 0 0 0 0 0 0 0 0 
ü 0 0 0 0 ü ü ü ü 0 0 0 0 0 
图 6.4 MNIST 数字 的 矩阵 表示 像素 强度 值 ) 
为 了 将 这 个 像素 值 矩阵 输入 神经 网 络 的 输入 层 ， 需 要 将 该 矩阵 展 平 为 一 个 784 维 的 
































向 量 。 因 此 ， 数 据 集 的 最 终 形 状 将 是 一 个 784 维 的 向 量 空间 。 

于 是 mnist.train.images 是 一 个 形状 为 (55000，784) 的 张 量 ， 如 图 6.5 所 示 。 第 一 
维 是 图 像 序列 的 索引 ， 第 二 维 是 每 幅 图 像 中 每 个 像素 的 索引 。 该 张 量 中 的 每 一 项 都 是 某 
幅 特 定 图 像 中 某 一 特定 像素 介 于 0 到 1 的 像素 强度 值 。 


如 前 所 述 ， 该 数据 集中 的 每 一 幅 图 像 都 有 其 对 应 的 标签 ， 范 围 是 0 一 9。 


LIBE PASE PED 目的 ， 这 里 将 标签 编码 为 独 热 向 量 Cone-hot vector)。 独 热 向 量 是 指 除 

个 向 量 所 代表 的 数字 的 索引 位 是 1 外 ， 其 余 位 全 为 0 的 向 量 。 例 如 ，3 编码 为 独 热 
Sa aa 这 样 一 来 ，mnist.train.labels 就 是 一 个 (55000，10) 大 小 的 
浮 点 数组 ， 如 图 6.6 所 示 。 
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mnist.train.xs 


mnist.train.ys 





















































784 ced 7 i0 ===— ME E 
55000 55000 
图 6.5 MNIST 数据 分 析 图 6.6 MNIST 数据 分 析 
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构建 与 训练 模型 


6.3 ”数字 分 类 一 一 构建 与 训练 模型 


现在 ， 可 以 继续 构建 模型 了 。 现 在 数据 集中 有 0 一 9 这 10 个 类 别 ， 目 标 是 将 任何 一 
幅 输 入 图 像 划分 到 其 中 一 类 。 通 常情 况 下 会 给 出 输入 图 像 的 一 个 硬性 决定 ， 指 出 它 到 底 
属于 其 中 的 哪 一 类 。 这 里 不 这 样 做， 而 会 给 出 一 个 含有 10 个 可 能 值 的 向 量 《〈 因 为 有 10 
个 可 能 的 类 别 )。 它 们 表示 输入 图 像 属于 0 一 9 中 每 一 类 的 可 能 性 。 
例如 ， 假 设 为 模型 提供 特定 图 像 。 该 模型 有 70% 的 概率 确定 此 图 像 为 9， 有 10% 
的 概率 确定 此 图 像 为 8， 依 次 类 推 。 所 以 ， 这 里 将 会 使 用 softmax 回归 ， 它 将 产生 0 一 1 
的 值 。 

softmax 回归 有 两 个 步骤 : 首先 将 输入 属于 确定 类 的 证 据 加 在 一 起 , 然后 将 该 特征 转 
换 为 概率 。 

为 了 计算 给 定 图 像 属于 特定 类 的 证 据 ， 这 里 对 像素 强度 求 加 权 和 。 如 果 具 有 高 强度 
值 的 像素 证 明 图 像 不 属于 某 一 类 , 那么 权重 就 是 负 值 ; 如 果 该 像素 证 明 图 像 属于 某 一 类 ， 
那么 权重 就 是 正 值 。 

图 6.7 所 示 模 型 为 每 个 类 别 学 习 到 的 权重 。 


0 1 2 3 4 
5 6 7 8 9 


图 6.7 模型 为 MNIST 数据 中 每 一 个 类 别 学 习 到 的 权重 


这 里 还 增加 了 一 些 名 为 偏差 的 额外 证 据 项 。 基 本 上 ， 我 们 希望 能 够 指出 某 些 事物 更 
可 能 与 输入 无 关 。 于 是 ， 给 定 输入 x， 其 属于 类 别 i 的 证 据 项 就 是 : 































































































































































































































































































































































































evidence, = DW, x, +b, 
Ap, WERE; 4b 是 类 别 i 的 偏差 :; j 是 在 输入 图 像 x 的 像素 上 求 和 时 的 索引 。 


一 SS 4388 上 


本 例 中 ， 它 就 是 10 NRI 
我 们 可 以 将 它 视 为 把 记 


一 化 。 求 暴 意 味 着 增加 
个 单位 的 证 据 意 
然后 对 这 些 权重 
1， 形 成 了 
softmax 回归 的 图 
中 有 更 多 的 x。 对 于 每 个 输 
和 ， 加 上 偏差 项 ， 然 后 应 月 
如 果 将 它 写 成 等 式 ， 如 图 
可 以 使 用 矢量 符号 来 表示 此 过 程 。 这 意味 着 将 它 变 成 矩阵 乘法 和 向 
都 是 非常 有 帮助 的 ， 如 图 6.10 Aras. 


更 简洁 的 写法 如 下 。 


图 





计算 效率 和 


yi 
y2 
Y3 
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H softmax 函数 将 证 























y = softmax (evidence) 





为 








softmax(evidence) = normalize(exp(evidence)) 
如 果 展 开 这 个 等 式 ， 就 会 得 到 : 


softmax(evidence), = 


但 是 ， 用 第 一 种 方式 考虑 softmax 通 
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味 着 某 个 假设 的 权重 减 小 。 











据 值 转换 为 预测 概率 y。 


这 里 ，softmax 是 一 个 激活 或 链接 函数 ， 它 将 线性 函数 的 输出 变换 为 期 望 的 形式 。 在 





这 里 有 0 一 9 这 10 个 可 能 的 类 别 ) 上 的 一 个 概率 分 布 。 





exp(evidence, ) 
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进行 归 一 化 ， 于 
效 的 概率 分 布 。 




















解 如 图 6.8 


出 ， 
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区 | 











现在 ， 考 虑 将 它 变 为 TensorFlow 能 够 使 月 
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是 权重 的 和 为 


所 示 。 当 然 ， 
计算 x 的 加 权 
IH. 








6.9 所 示 。 


y =softmax(Wx+b) 
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ftmax 回归 的 等 式 表示 
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6.10  softmax 


的 东西 。 





6.8 softmax [E] 
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E 据 值 转换 为 输入 属于 每 一 类 别 的 概率 。 它 定义 为 : 











常 更 有 帮助 : 对 输入 求 昧 ， 然 后 对 它们 进行 归 
个 单位 的 证 据 可 以 指数 级 增加 任何 假设 的 权重 。 相 反 ， 减 少 一 
没有 权重 是 零 值 或 者 负 值 的 假设 。softmax 
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归 的 可 视 化 











量 加 法 。 这 对 于 














Wi: Wiz Wis| zi bi 
-|@2) + | be 
T3 bs 

归 等 式 的 向 量化 表示 
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6.3.1 分 析 数 据 


现在 我 们 继续 实现 分 类 器 。 首 先 ， 导 入 此 实现 需要 用 到 的 包 。 














import tensorflow as tf 
import matplotlib.pyplot as plt 
import numpy as np 


import random as ran 


然后 ， 定 义 一 些 辅助 函数 ， 使 得 能 够 在 下 载 的 原始 数据 集中 进行 子 集 化 。 


#Define some helper functions 














| 























# to assign the size of training and test data we will take from MNIST dataset 
def train size(size): 
print ('Total Training Images in Dataset = ' + 
str(mnist dataset.train.images.shape)) 
print (FREE EE HHH HE EE HH HE EE HE HH HE EE HH HH EE HE HEHE EE HEHE | ») 
input values train = mnist_dataset.train.images[:size,:] 
print ('input values train Samples Loaded = ' + 
str(input values train.shape)) 
target values train = mnist dataset.train.labels[:size,:] 
print ('target values train Samples Loaded = ' + 
str(target values train.shape)) 


return input values train, target values train 


def test size(size): 
print ('Total Test Samples in MNIST Dataset = ' + 
str(mnist dataset.test.images.shape)) 
print (FREE EH HH EEE EH HH HE EE HHH HE EE HH HEE EH HEHE EE RHE | ») 
input_values_test = mnist_dataset.test.images[:size,:] 
print ('input values test Samples Loaded = ' + 
str(input values test.shape)) 
target values test = mnist dataset.test.labels[:size,:] 
print ('target values test Samples Loaded = ' + 
Str(target values test.shape)) 


return input values test, target values test 


此 外 ， 我 们 还 将 定义 两 个 辅助 函数 ， 用 来 显示 数据 集中 的 特定 数字 ， 或 者 显示 图 像 
子 集 展开 的 版 本 。 






































#Define a couple of helper functions for digit images visualization 
def visualize digit (ind): 


print(target values train[ind]) 


————————| 8384 上 
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target = target values train[ind].argmax(axis-0) 


true image = input values train[ind].reshape([28,28] 


plt.title('Sample: $d Label: $d' % 
plt.imshow(true image, cmap-plt.get cmap( 
plt.show() 

def visualize mult imgs flat(start, stop): 

imgs - 

for i in range(start+1l,stop): 
imgs = np.concatenate((imgs, 

input values train[i].reshape([1,784]))) 

)) 


plt.imshow(imgs, cmap=plt.get_cmap('gray_r' 


plt.show() 


现在 ， 可 以 开始 讨论 业务 3 
集中 加 载 的 训练 和 测试 样本 。 











且 使 / 














ud 





























(ind, target)) 
'gray r' 


input values train[start].reshape([1,784]) 


数据 集 了 。 所 以 ， 我 们 将 会 定义 希望 从 原始 数据 


) ) 








































































































































































































下 面 开 始 构建 和 训练 模型 。 首 先 ， 根 据 需要 加 载 的 训练 和 测试 样本 来 定义 变量 。 旧 
前 ， 该 程序 会 加 载 所 有 数据 ， 但 是 后 续 可 能 会 更 改 此 值 以 节省 资源 
input_values_train, target_values_train = train_size (55000) 
输出 如 下 。 
Total Training Images in Dataset = (55000, 784) 
HERE AE TE REE FE TE FE FE HE FE FE FE TE TE FE HEE HEE HEHEHE HEE EEE 
input_values_train Samples Loaded = (55000, 784) 
target_values_train Samples Loaded = (55000, 10) 
现在 有 一 个 包含 55000 个 手写 数字 样本 的 训练 其 中 ， 每 个 样本 都 是 28x28 像素 
的 图 像 ， 被 展 平 为 784 维 的 向 量 ， 而 它 还 有 对 应 的 独 热 编码 格式 的 标签 
这 里 target values train 数据 是 所 有 input values train 样本 的 关联 标签 。 在 下 面 这 个 
例子 中 ， 图 6.11 所 示 的 数组 表示 数字 7 的 独 热 编码 格式 。 
标签 0 1 2 3 4 5 6 8 9 
数组 |[ 0, 0, 0, 0, 0, 0, 0, 0. 0] 
图 6.11 数字 7 的 独 热 编码 
那么 ， 通 过 以 下 代码 从 数据 集中 随机 抽出 一 张 图 进行 可 视 化 ,来 看 一 下 它 是 什么 
样 的 。 
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构建 与 训练 模型 


visualize digit (ran.randint(0, input values train.shape[0])) 


这 里 会 用 到 前 面 定义 的 辅助 函数 来 从 数据 集中 显示 一 个 随机 的 数字 ， 输 出 如 图 6.12 
所 示 。 
































Example: 0 Label: 7 
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15r 


20} 


25r 
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图 6.12 display digit 方法 输出 的 数字 








还 可 以 在 以 下 代码 中 使 用 之 前 定义 的 辅助 函数 来 可 视 化 一 堆 展 平 的 图 像 。 


N 
c 














visualize mult imgs flat(0,400) 


因为 展 平 的 向 量 中 的 每 一 个 值 代表 像素 强度 ， 所 以 可 视 化 这 些 像素 后 的 图 形 如 图 6.13 
所 示 。 
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6.13 “前 400 个 训练 样本 
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6.3.2 构建 模型 


到 目前 为 上 ， 我 们 尚未 开始 给 此 分 类 器 构建 计算 图 。 现 在 从 创建 会 话 变量 开始 ， 该 
将 负责 执行 将 要 构建 的 计算 图 。 























sess = tf.Session() 


接 下 来 ， 将 定义 模型 的 占 位 符 ， 这 些 占 位 符 将 用 于 给 计算 图 提供 数据 。 






































input_values = tf.placeholder(tf.float32, shape=[None, 784]) 


当 在 占 位 符 的 第 一 维 中 指定 None 时 , 这 意味 着 可 以 根据 需要 为 占 位 符 提供 尽 可 能 
多 的 样本 。 在 这 种 情况 下 ， 占 位 符 可 以 接收 任意 数量 的 样本 ， 其 中 每 个 样本 具有 784 


个 值 






























































现在 需要 定义 另 一 个 占 位 符 来 提供 图 像 标签 。 另 外 ， 之 后 会 用 此 占 位 符 来 比较 模型 
预测 和 图 像 的 真实 标签 。 

output values = tf.placeholder(tf.float32, shape=[None, 10]) 

接 下 来 ,将 会 定义 weights 和 bias。 这 两 个 变量 将 是 网 络 中 的 可 训练 参数 ， 而 且 它 们 
是 在 未 知 数据 上 做 预测 所 需要 的 仅 有 的 两 个 变量 。 









































weights = tf.Variable(tf.zeros([784,10])) 
biases = tf.Variable(tf.zeros([10])) 


可 以 将 这 些 weights 视 为 每 个 数字 的 10 个 备 忘 单 。 这 有 点 类 似 于 教师 是 如 何 使 用 备 
忘 单 对 多 项 选择 考试 进行 评分 的 。 

现在 可 以 定义 softmax 回归 了 ， 它 是 本 节 的 分 类 器 函数 。 这 种 特定 的 分 类 器 称 为 多 
项 逻辑 回归 ， 我 们 通过 将 数字 的 展 平版 本 乘 以 权重 然后 加 上 偏差 进行 预测 。 





















































softmax_layer = tf.nn.softmax(tf.matmul(input values,weights) + biases) 















































































































































首先 ， 忽 略 softmax 本 身 ， 仅 仅 查 看 softmax 函数 里 下 n 
的 内 容 。matmul 是 TensorFlow 中 用 于 年 阵 乘法 的 函数 。 如 | | 
果 读 者 了 解 矩 阵 乘法 ， 就 会 明白 这 样 计 算是 合适 的 ， 并 且 "LEES | | 
xW+b 将 会 得 到 一 个 训练 样本 数 On). x 类 别 数 OD. 大 小 的 ”m m[ | 
^p, QP 6.14 所 示 。 图 6.14 简单 的 矩阵 乘法 



































—— yp 
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可 以 通过 计算 softmax layer 来 确认 它 。 





print (softmax_layer) 

Output: 

Tensor ("Softmax:0", shape=(?, 10), dtype-float32) 

现在 ， 用 之 前 定义 的 计算 图 开始 实验 ， 使 用 训练 集中 的 3 个 样本 ， 看 一 下 它 是 如 何 工作 
的 。 要 执行 计算 图 , 需要 用 到 之 前 定义 的 会 话 变量 , JE Hr EIE t£global variables initializer() 
来 初始 化 变量 。 

现在 继续 ， 只 给 计算 图 提供 3 个 样本 。 

































































pa 




















input_values_train, target_values_train = train_size (3) 
sess.run(tf.global variables initializer() 

#If using TensorFlow prior to 0.12 use: 
#sess.run(tf.initialize all variables()) 
print(sess.run(softmax layer, feed dict-(input values: 


input values train])) 


输出 如 下 。 


[[ 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1] 
0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1) 
OclOcl-Ol Orb 0.21 05:21 041 05:1 0L Oe] 


在 这 里 ， 可 以 看 到 模型 对 提供 给 它 的 3 个 训练 样本 的 预测 。 目 前 ， 模 型 对 于 这 个 任 
务 没 有 学 到 任何 东西 ， 因 为 还 没有 经 历 过 训练 过 程 ， 所 以 它 的 输出 表明 对 于 输入 样本 每 
一 个 数字 正确 分 类 的 概率 均 为 10%. 

如 前 所 述 ,softmax 是 一 个 将 输出 压缩 到 0 一 1 的 激活 函数 ,并 且 softmax 的 TensorFlow 
实现 确保 了 单个 输入 样本 属于 所 有 类 别 的 概率 之 和 为 1。 


下 面 使 用 TensorFlow 的 softmax 函数 进行 一 些 实验 。 
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Sess.run(tf.nn.softmax(tf.zeros([4]))) 
sess.run(tf.nn.softmax(tf.constant([0.1, 0.005, 2]))) 


输出 如 下 。 


array([0.11634309, 0.10579926, 0.7778576 ], dtype=float32) 


-1 
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接 下 来 ， 需 要 给 模型 定义 损失 函数 ， 它 将 衡量 分 类 器 在 尝试 为 输入 图 像 划分 类 别 时 
的 好 坏 。 模 型 的 准确 性 是 通过 比较 数据 集中 的 真实 值 与 从 模型 中 得 到 的 预测 值得 到 的 。 
目标 是 减少 真实 值 与 预测 值 之 间 的 任何 分 类 错误 。 


OSU RE XU: 




























































































H,(y)=-2,y log(y,) 


其 中 ，y 是 预测 的 概率 分 布 ，y' 是 真实 分 布 ( 带 有 数字 标签 的 独 热 向 量 )。 
EAE, BOI AT TAL OM TP FIR SAT A TC HE. 
FY VAI ESC EAS SUR PR BK o 





fay 











model cross entropy = tf.reduce mean(-tf.reduce sum(output values * 


tf.log(softmax layer), reduction indices-[1])) 


此 函数 对 于 从 softmax layer 中 获得 的 所 有 预测 〈 值 范围 是 0~1) 取 对 数 ， 并 将 它们 与 样 
本 的 真实 值 output_values 逐一 相 乘 (参见 维基 百科 )。 如 
果 log 函数 作用 在 每 一 个 接近 于 0 的 值 上 , 那么 得 到 的 结 
果 将 是 一 个 很 大 的 负数 (-np.log(0.01) =4.6); 如 果 log K 
数 作用 在 接近 于 1 的 数 上 ， 那 么 结果 将 是 一 个 很 小 的 
负数 (-np.log(0.99) = 0.1). log 函数 的 图 像 如 图 6.15 
所 示 。 

如 果 预 测 确实 不 准确 ,那么 算法 基本 上 会 使 用 非常 
大 的 数字 来 惩罚 分 类 器 ; 如 果 预 测 确实 准确 ,那么 惩罚 图 615 画 数 )logG9 的 可 视 化 
也 会 非常 小 。 


下 面 是 一 个 softmax 预测 的 简单 Python 例子 ， 它 非常 确信 数字 是 3。 
























































































































































j = [0.03, 0.03, 0.01, 0.9, 0.01, 0.01, 0.0025,0.0025, 0.0025, 0.0025] 


再 创建 一 个 标签 为 3 的 数组 作为 标准 ， 来 和 softmax 函数 进行 对 比 。 














K = [0,0,0,1,0,0,0,0,0,0] 


你 能 够 猪 到 损失 函数 给 出 了 什么 值 吗 ? 你 能 够 理解 对 j 取 对 数 后 是 如 何 用 一 个 很 大 
的 负 值 来 惩罚 错误 答案 吗 ? 试 试用 以 下 代码 来 理解 。 















































$$$ 142 ]———————————————————— 
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-np.log(j) 
-np.multiply(np.log(j),k) 


这 将 返回 9 个 0 值 ， 以 及 1 个 0.1053。 当 将 它们 全 部 加 起 来 的 时 候 ， 认 为 这 是 一 个 
很 好 的 预测 。 注 意 当 对 实际 的 2 进行 相同 的 预测 时 会 发 生 什 么 。 














k = [0,0,1,0,0,0,0,0,0,0] 
np.sum(-np.multiply (np.log(j),k)) 








JE, cross entropy 函数 给 出 了 结果 4.6051， 这 表示 严重 的 惩罚 ， 这 是 一 个 预测 不 
佳 的 结果 。 它 被 严重 惩罚 的 原因 是 分 类 器 十 分 确信 样本 是 3， 但 实际 上 样本 是 数字 2。 

接 下 来 ， 开 始 训练 分 类 器 。 为 了 训练 它 ， 必 须要 给 W A b 找到 合适 的 值 ， 以 尽 可 能 
降低 损失 。 

现在 可 以 根据 需要 为 训练 分 配 自 定义 变量 。 在 整个 过 程 中 任何 像 下 面 这 样 的 值 都 可 
以 随意 更 改 。 事 实 上 ， 算 法 也 鼓励 这 样 做 。 首 先 ， 使 用 这 些 值 可 以 监测 到 使 用 很 少 的 训 
练 样本 或 者 使 用 很 高 / 低 的 学 习 率 时 会 发 生 什 么 。 


input values train, target values train = train size(5500) 








































































































input values test, target values test = test size(10000) 
learning_rate = 0. 


num_iterations = 2500 


现在 可 以 初始 化 所 有 变量 ， 以 便 可 以 在 TensorFlow 图 中 使 用 它们 。 



































init = tf.global variables initializer() 
If using TensorFlow prior to 0.12 use: 
init = tf.initialize all variables() 


sess.run(init) 

接 下 来 ， 需 要 使 用 梯度 下 降 算 法 来 训练 分 类 器 。 所 以 首先 定义 训练 方法 和 一 些 用 来 
衡量 模型 准确 性 的 变量 。 变 量 train 将 会 使 用 选 定 的 学 习 率 来 实现 梯度 下 降 优 化 器 ， 以 最 
小 化 模型 损失 函数 model cross entropy. 







































































train 
=tf.train.GradientDescentOptimizer (learning_rate) .minimize (model cross entropy) 
model correct prediction = tf.equal(tf.argmax(softmax layer,1), 
tf.argmax(output values,1) 

model accuracy = tf.reduce mean(tf.cast(model correct prediction, 


tf.float32)) 


—— pj 
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6.3.3 训练 模型 


现在 ， 定 义 一 个 迭代 num iterations 次 的 循环 。 对 于 每 次 循环 ， 程 序 都 会 执行 训练 ， 
使 用 feed dict 从 input values train 和 target values train 获取 输入 值 。 


出 于 计算 准确 性 ， 我 们 将 会 使 用 input values test 中 的 未 知 数据 来 测试 模型 。 

















for i in range (num iterations+1): 





sess.run(train, feed dict-[(input values: input values train, 
output values: target values train]) 
if i%100 == 
print ('Training Step:' + str(i) + ' Accuracy = ' + 
str(sess.run(model_accuracy, feed_dict={input_values: input values test, 
output values: target values test])) + ' Loss = ' + 
str(sess.run(model cross entropy, (input values: input values train, 


output values: target values train]))) 











输出 如 下 。 

Training Step:0 Accuracy = 0.5988 Loss = 2.1881988 
Training Step:100 Accuracy = 0.8647 Loss = 0.58029664 
Training Step:200 Accuracy = 0.879 Loss = 0.45982164 
Training Step:300 Accuracy = 0.8866 Loss = 0.40857208 
Training Step:400 Accuracy = 0.8904 Loss = 0.37808096 
Training Step:500 Accuracy = 0.8943 Loss = 0.35697535 
Training Step:600 Accuracy = 0.8974 Loss = 0.34104997 
Training Step:700 Accuracy = 0.8984 Loss = 0.32834956 
Training Step:800 Accuracy = 0.9 Loss = 0.31782663 
Training Step:900 Accuracy = 0.9005 Loss = 0.30886236 
Training Step:1000 Accuracy = 0.9009 Loss = 0.3010645 
Training Step:1100 Accuracy = 0.9023 Loss = 0.29417014 
Training Step:1200 Accuracy = 0.9029 Loss = 0.28799513 
Training Step:1300 Accuracy = 0.9033 Loss = 0.28240603 
Training Step:1400 Accuracy = 0.9039 Loss = 0.27730304 
Training Step:1500 Accuracy = 0.9048 Loss = 0.27260992 
Training Step:1600 Accuracy = 0.9057 Loss = 0.26826677 
Training Step:1700 Accuracy = 0.9062 Loss = 0.2642261 
Training Step:1800 Accuracy = 0.9061 Loss = 0.26044932 
Training Step:1900 Accuracy = 0.9063 Loss = 0.25690478 
Training Step:2000 Accuracy = 0.9066 Loss = 0.2535662 
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Training Step:2100 Accuracy = 0.9072 Loss = 0.25041154 
Training Step:2200 Accuracy = 0.9073 Loss = 0.24742197 
Training Step:2300 Accuracy = 0.9071 Loss = 0.24458146 
0.9066 Loss = 0.24187621 
0 0 


.9067 Loss = 0.23929419 


Training Step:2400 Accuracy = 
Training Step:2500 Accuracy = 


请 注意 在 将 要 结束 时 损失 值 仍然 在 下 降 ， 但 是 准确 率 略 有 下 降 。 这 表明 仍然 可 以 最 
大 限度 地 减少 损失 ， 从 而 最 大 限度 地 提高 模型 在 训练 数据 上 的 准确 性 ， 但 是 这 可 能 无 法 
帮助 我 们 在 用 于 衡量 准确 性 的 测试 数据 上 做 预测 ， 这 也 称 为 过 拟 合 〈 泛 化 性 不 强 )。 才 使 
用 默认 设置 ， 准 确 性 大 约 为 91%。 如 果 要 作 浆 以 获得 94% 的 准确 性 ， 可 以 将 测试 样本 设 
置 为 100 个 。 这 表明 没有 足够 的 测试 样本 可 能 会 导致 有 偏差 的 准确 性 。 

注意 ， 这 是 计算 分 类 器 性 能 的 一 种 很 不 正确 的 方式 。 当 然 ， 这 里 出 于 学 习 和 实验 目 
的 故意 这 样 做 。 理 想 情 况 下 ， 当 使 用 大 型 数据 集训 练 时 ， 每 一 次 使 用 其 中 小 批量 训练 数 
据 进行 训练 ， 而 不 是 一 次 使 用 所 有 的 数据 。 

接 下 来 就 是 有 趣 的 部 分 了 。 既 然 已 经 计算 出 了 权重 备 忘 单 ， 接 下 来 就 可 以 使 用 以 下 
代码 来 构建 一 个 图 。 
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for i in range(10): 
plt.subplot(2, 5, i+1) 
weight = sess.run(weights)[:,i] 
plt.title(i) 
plt.imshow(weight.reshape([28,28]), cmap=plt.get_cmap('seismic') ) 
frame = plt.gca() 
frame.axes.get_xaxis().set_visible (False) 


frame.axes.get_yaxis().set_visible (False) 


以 上 代码 构建 出 的 图 如 图 6.16 所 示 。 
0 1 2 3 4 
2n "nt -— ae 
OLERE 
= Pha sm “= 
5 6 7 8 9 
e e» ES 
' ^ fa 
$9 eme E 


图 6.16 BUE 0 一 9 的 可 视 化 

















图 6.16 显示 了 模型 学 习 到 的 0~9 的 权重 ， 这 也 是 分 类 器 最 重要 的 一 面 。 机 器 学 习 
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涉及 的 大 量 工作 就 是 要 弄 清 楚 最 优 权 重 是 什么 。 一 旦 根据 茶 种 优化 标准 计算 出 了 最 优 权 
重 ， 就 能 得 到 备忘录 ， 并 且 可 以 使 用 学 习 到 的 权重 轻松 找到 问题 的 答案 。 

学 习 的 模型 通过 比较 输入 的 数字 样本 和 图 中 两 种 颜色 的 权重 的 相似 度 或 差异 性 来 做 
预测 。 不 同 颜色 代表 的 匹配 度 不 一 样 。 在 计算 机 屏幕 上 ， 红 色 越 深 ， 表示 匹配 越 好 ; 
色 表示 中 性 ， 蓝 色 表 示 不 匹配 。 

现在 ， 可 以 使 用 备 忘 蛙 来 看 看 模型 的 表现 如 何 。 


input values train, target values train = train size(1) 


























TH 
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visualize digit (0) 








输出 如 下 。 

Total Training Images in Dataset = (55000, 784) 
HERE FE TE HE FE E FE TE FE TE HE FE EEE HEE HE HERE RE HEE EE 
input_values_train Samples Loaded = (1, 784) 

target_values_train Samples Loaded = (1, 10) 
02:02-70:10. 70 70s 70s 0,20. 0.-] 


Sample: 0 Label: 7 











下 面 看 softmax 预测 器 。 

















answer = sess.run(softmax_layer, feed_dict={input_values: 
input_values_train}) 


print (answer) 


、 


前 面 的 代码 将 会 给 出 一 个 10 维 的 向 量 ， 每 一 列 包含 一 个 概率 值 。 

















[[2.1248012e-05 1.1646927e-05 8.9631692e-02 1.9201526e-02 8.2086492e-04 
.2516821e-05 3.8538201e-05 8.5374612e-01 6.9188857e-03 2.9596921e-02]] 


可 以 使 用 argmax 函数 来 找到 输入 图 像 最 有 可 能 属于 的 类 别 。 














y 
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answer.argmax () 


输出 如 下 。 


> 








现在 ， 我们 从 网 络 中 得 到 了 一 个 正确 的 分 类 。 


使 用 我 们 的 知识 来 定义 一 个 辅助 函数 ， 使 它 能 够 从 数据 集中 随机 选择 一 幅 图 像 ， 并 
用 该 图 像 来 测试 模型 。 






























































def display_result (ind): 

Loading a training sample 

input_values_train = mnist_dataset.train.images[ind,:].reshape (1,784) 
target values train = mnist_dataset.train.labels[ind,:] 

getting the label as an integer instead of one-hot encoded vector 


label = target values train.argmax() 





Getting the prediction as an integer 
prediction = sess.run(softmax layer, feed dict-(input values: 
input values train]).argmax() 


plt.title('Prediction: $d Label: $d' $ (prediction, label)) 





plt.imshow(input values train.reshape([28,28]), 
cmap-plt.get cmap('gray r') 
plt.show() 


现在 来 尝试 一 下 该 辅助 函数 。 
display result(ran.randint(0, 55000) 


输出 如 下 。 


Prediction: 4 Label: 4 




















再 次 得 到 了 一 个 正确 的 分 类 。 
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本 章 主 要 讲述 了 如 何 使 用 FNN 完成 数字 分 类 任务 , 并 回顾 了 神经 网 络 环境 中 使 用 的 


























接 下 来 ， 我 们 将 会 使 用 一 些 现 代 最 佳 实践 和 技巧 来 建立 一 个 复杂 版 本 的 数字 分 类 模 
型 ， 以 增强 模型 的 性 能 。 











4 





深度 学 习 架 构 ， 它 利 
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j 卷 积 运算 来 控 





加 输入 






















































































第 7 章 


卷 积 神经 网 络 


在 数据 科学 中 ， 卷 积 神经 网 络 (Convolutional NeuralNetwork, CNN) 
像 中 的 相关 的 可 解释 特 和 





是 一 类 特定 的 








Es CNN 层 之 间 像 





























































































































前 馈 神经 网 络 一 样 互 相连 接 ， 同 时 它 利用 卷 积 操作 来 模拟 人 类 识别 物体 时 大 脑 的 工作 原 
理 。 单 个 皮层 神经 元 只 对 空间 中 某 个 受 限 区 域 的 刺激 做 出 反应 ,这 称 为 感受 对。 特别 地 ， 
生物 医学 成 像 曾 一 度 是 一 个 很 有 挑战 性 的 问题 , 但 在 本 章 中 , 读者 将 看 到 如 何 利用 CNN 
来 发 掘 图 像 中 的 模式 。 

本 章 将 包含 以 下 主题 。 

e ijt 

e 动机 。 

@ CNN 的 不 同 层 。 

€ CNN 基础 示例 一 一 MNIST 手写 数字 分 类 。 
7.1 卷 积 运算 

CNN 在 计算 机 视觉 领域 里 广泛 应 用 , 并 且 它 们 表现 得 比 前 人 所 使 用 的 大 多 数 传统 计 
算 机 视觉 技术 要 出 色 。CNN 将 著名 的 卷 积 运算 和 神经 网 络 结合 在 一 起 ， 因 此 叫 作 卷 积 神 
经 网 络 。 因 此 ， 在 深入 讨论 CNN 的 神经 网 络 部 分 之 前 ， 本 书 将 先 介 绍 卷 积 运算 并 看 看 
它 是 怎么 工作 的 。 

卷 积 运算 的 主要 目的 是 从 图 像 中 提取 信息 或 特征 。 任 何 图 像 都 可 以 看 作 一 个 数值 












































矩阵， 而 矩阵 中 一 组 特定 的 数值 可 以 构成 一 个 特征 。 卷 积 运 入 




















的 目 





的 是 扫描 这 个 矩阵 ， 
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并 尝试 为 图 像 挖掘 相关 的 或 可 解释 特征 。 例 如 ， 考 虑 一 个 5x5 的 图 像 ， 它 的 对 应 灰 度 
(或 者 说 像素 值 )， 用 0 和 1 来 表示 ， 如 图 TO 所 示 。 


再 考虑 图 7.2 所 示 的 3x3 的 矩阵 。 








图 7.1 5x5 的 像素 值 矩 阵 图 7.2 3x3 的 像素 值 矩 阵 


如 图 7.3 (a) ~ GO 所 示 ， 可 以 用 3x3 的 和 矩阵 对 5x5 的 图 像 进行 卷 积 。 





图 像 卷 积 特征 
(b) 

















图 像 卷 积 特征 图 像 卷 积 特征 
(c) (d) 





图 像 卷 积 特征 图 像 卷 积 特征 
(e) (f) 
图 7.3 卷 积 运算 。 输 出 矩阵 称 为 卷 积 特征 或 卷 积 映射 





一 0 


71 卷 积 运算 








IES 
wpiw 
wp 














图 像 卷 积 特征 卷 积 特征 





EL 卷 积 特征 
图 7.3 卷 积 运算 。 ee ( 续 ) 
7.3 可 以 概括 为 以 下 内 容 ， 为 了 利用 3x3 卷 积 核对 原 有 的 5x5 图 像 进行 卷 积 ， 需 
要 进行 以 下 操作 。 
e 用 3x3 和 矩阵 对 原 有 的 5x5 图 像 进 行 扫 描 ， 并 且 每 次 移动 一 个 像素 〈 步 长 )。 
e 对 于 3x3 图 像 中 的 不 同位 置 ， 用 3x3 矩阵 中 的 每 一 个 元 素 乘 以 5x5 FEE HIR 













































































应 像素 值 。 
e 把 这 些 对 应 元 素 相 乘 的 结果 加 在 一 起 得 到 一 个 数值 , 这 个 数值 构成 了 右 侧 输出 矩 
阵 里 的 单个 数值 。 





正如 我 们 在 图 7.3 中 看 到 的 ,3x3 EAH ULE 5x5 原 图 像 的 一 部 
分 上 进行 操作 ， 或 者 说 每 次 只 能 看 到 原 图 像 的 一 部 分 。 




















在 前 面 的 叙述 里 ，CNN 中 的 术语 描述 如 下 。 

e 3x3 矩阵 称 为 核 (kernel)、 特 征 探 测 器 (feature detector) 或 过 滤器 filter). 

e 包含 对 应 元 素 相 乘 结果 的 右 侧 输出 矩阵 称 为 特征 映射 〈feature map). 

因为 特征 映射 是 基于 核 和 原 输入 图 像 上 对 应 像素 之 间 的 对 应 元 素 相 乘 获得 的 ， 所 以 
每 次 改变 核 或 者 过 滤器 的 数值 都 会 产生 不 同 的 特征 映射 。 

于 是 ， 读 者 可 能 认为 他 自己 需要 在 卷 积 神经 网 络 的 训练 中 弄 清 过 滤器 的 数值 ， 但 实 
际 情况 并 不 是 那样 的 。CNN 在 学 习 过 程 中 自动 弄 清 了 这 些 数字 。 因 此 ， 如 果 有 更 多 的 过 
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滤器 ， 就 意味 着 可 以 从 图 像 中 挖掘 更 多 的 特征 。 
在 开始 学 习 下 一 节 内 容 之 前 ， 先 介绍 CNN 中 一 些 常用 的 术语 。 
€ ik (stride): 这 个 术语 在 前 面 简单 提 到 过 。 通 常 ， 步 长 指 的 是 特征 探测 器 〈 或 
者 过 滤器 ) 在 输入 矩阵 的 像素 上 移动 的 像素 个 数 。 例 如 ， 步 长 1 表示 在 对 输入 图 
像 做 卷 积 时 每 次 对 过 滤器 移动 1 像素 , 步 长 2 表示 在 对 输入 图 像 做 卷 积 时 每 次 对 
过 滤器 移动 2 像素 。 步 长 越 大 ， 生 成 的 特征 映射 越 小 。 
€ 补 零 法 (Zero-padding): 如 果 想 把 输入 图 像 的 边沿 像素 也 计算 进来 ， 那 么 过 滤器 有 一 
部 分 就 会 落 在 输入 图 像 外 面 。 补 零 法 通过 在 输入 图 像 边沿 上 补 零 解 决 了 这 个 问题 。 






































7.2 动机 


传统 计算 机 视觉 技术 曾 一 度 用 来 解决 一 些 计算 机 视觉 问题 ， 例 如 目标 检测 和 图 像 分 
割 。 这 些 传统 计算 机 视觉 技术 表现 得 不 错 ， 但 是 它们 离 实际 场景 下 的 应 用 还 有 很 大 的 距 
离 , 例如 , 应 用 在 自动 驾驶 中 。 2012 年 , AlexKrizhevsky 引入 了 CNN, 该 方法 在 ImageNet 
比赛 中 将 目标 分 类 错误 率 从 26% 降 低 到 了 25%， 取 得 了 巨大 的 突破 。 从 那 之 后 ，CNN 就 
广泛 地 应 用 ， 并 且 提 出 了 许多 不 同 的 变种 。 它 在 ImageNet 比赛 中 已 经 击败 了 人 类 ， 呈 现 
出 了 更 低 的 错误 分 类 率 ， 如 图 7.4 所 示 。 







































































ILSVRC 在 ImageNet 上 排名 前 5 的 错误 率 





2010 2011 2012 2013 2014 人 类 ArXiv 2015 


图 7.4 错误 分 类 率 随时 间 的 变化 














CNN 的 应 用 

鉴于 CNN 在 计算 机 视觉 的 不 同 领域 乃至 自然 语言 处 理 领 域 所 取得 的 突破 ,很 多 公司 已 经 
将 这 种 深度 学 习 解 决 方案 整合 到 了 自己 的 计算 机 视觉 回声 系统 中 。 例 如 ，Google 在 它们 的 图 
片 搜索 引擎 中 用 到 了 该 架构 ， 而 Facebook 则 用 它 来 实现 自动 标注 和 其 他 工作 ， 如 图 7.5 所 示 。 
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卷 积 + 非 线性 





卷 积 + 池 化 层 


图 
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最 大 池 化 


























7.5 典型 的 CNN 目标 识别 常用 架构 























CNN 取得 这 样 的 突破 是 源 于 它 的 架构 , 该 架构 直观 地 利用 卷 积 操作 来 提取 图 像 的 特 








7.3 CNN 的 不 同 层 























> 











^£ 
视觉 领域 取得 如 此 大 的 突破 。 
7.3.1 输入 层 


























征 。 在 后 面 的 内 容 中 ， 我 们 将 看 到 这 种 方法 和 人 脑 的 工作 原理 十 分 相像 。 


如 图 7.5 所 示 ， 一 个 典型 的 CNN 架构 包含 了 多 个 用 于 完成 不 同 任务 的 层 。 本 节 将 深 
它们 的 细节 ， 并 展示 把 它们 按照 特定 的 方法 连接 在 一 起 后 的 好 处 ， 从 而 在 计算 机 


























这 是 CNN 架构 中 的 第 一 层 ， 所 有 其 后 的 卷 积 层 和 池 化 层 都 要 求 输入 遵照 特定 的 格 
式 。 输 入 变量 是 遵照 下 面 形状 的 张 量 。 








[batch_size, image_width, 


其 中 ，batch size 是 从 原始 











image_height, channels] 


训练 集中 选取 的 随机 样本 《数量 )， 在 应 用 随机 梯度 下 降 法 


























时 使 用 ，image_ width 是 网 络 的 输入 图 像 的 宽度 ; image_height 是 网 络 的 输入 图 像 的 高 度 ; 
channels 是 输入 图 像 颜色 通道 的 数量 ， 对 于 RGB 图 像 通道 数 就 是 3， 对 于 二 值 图 像 就 是 1. 


举 个 例子 ， 考虑 著名 的 MNIST 数据 集 。 比 如 ， 要 用 CNN 在 这 个 数据 集 上 做 数字 分 类 。 
如 果 数 据 集 像 MNIST 数据 集 一 样 由 28x28 像素 的 黑白 图 像 组 成 ， 那 么 输入 层 所 要 














求 的 形状 如 下 所 示 。 


[batch size, 28, 28, 1] 









































要 改变 输入 特征 的 形状 ， 可 以 用 下 面 的 重 塑 操作 。 
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input layer = tf.reshape(feature["x"], [-1, 28, 28, 1] 


正如 读者 所 见 ， 这 里 将 批 尺 寸 (batch size) 设置 为 -1， 这 表示 这 个 数值 的 
D 大 小 由 特征 里 的 输入 值 动态 地 决定 。 这 样 ， 我 们 就 可 以 通过 控制 批 尺 寸 对 
CNN 模型 进行 微调 了 。 


作为 一 个 重 塑 操作 的 例子 ， 假 设 把 输入 样本 分 为 大 小 为 5 的 批 次 ， 那 么 feature["x"] 
数组 会 包含 输入 图 像 的 3920 个 数值 , 其 中 每 个 数值 对 应 图 像 当中 的 一 个 像素 ,在 本 例 中 ， 
输入 层 具 有 如 下 形状 。 


[5, 28, 28, 1] 

7.3.2 RPR 

正如 前 文 提 到 的 ， 卷 积 步骤 是 因为 卷 积 操作 而 取 名 的 。 加 入 卷 积 步骤 的 主要 目的 是 

从 输入 图 像 中 提取 特征 ， 然 后 将 它们 输入 线性 分 类 器 当中 。 
在 自然 图 像 中 ， 特 征 可 能 出 现在 图 像 的 任何 位 置 。 比 如 ， 边 可 能 出 现在 图 像 的 中 间 

或 者 角落 , 因此 堆 双 大量 卷 积 步 又 的 整个 想法 是 能 够 在 图 像 中 的 任何 位 置 检测 这 些 特征 。 
在 TensorFlow 里 面 很 容易 定义 卷 积 步 又。 比如， 如 果 要 对 输入 层 使 用 带 ReLU 激活 

函数 的 20 个 5x5 的 过 滤器 ， 那 么 可 以 用 下 面 这 段 代码 来 实现 。 






















































































































































































conv_layerl = tf.layers.conv2d ( 
inputs=input_layer, 
filters=20, 

kernel_size=[5, 5], 
padding="same", 


activation=tf.nn.relu) 























conv2d 函数 的 第 一 个 参数 是 在 之 前 代码 中 定义 的 输入 层 ， 它 具有 合适 的 形状 ; 第 二 
个 参数 是 过 滤器 参数 ， 它 指明 了 用 在 图 像 上 的 过 滤器 个 数 ， 过 滤器 数量 越 多 ， 从 输入 图 
像 中 挖掘 出 来 的 特征 也 越 多 ， 第 三 个 参数 是 核 尺 寸 kernel size )， 它 表示 过 滤器 或 者 特 





















































征 检测 器 的 尺寸 。 补 齐 〈padding) 参数 《〈 此 处 设置 为 “same”) 指定 了 用 补 零 法 对 输入 
图 像 边 沿 像素 进行 处 理 。 最 后 一 个 参数 指明 了 用 在 卷 积 操作 的 输出 上 的 激活 函数 。 


























因此 ， 在 MNIST 例子 中 ， 输 入 张 量 的 形状 是 ; 


[batch size, 28, 28, 1] 


而 卷 积 步骤 的 输出 张 量 的 形状 是 : 
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[batch size, 28, 28, 20] 


输出 张 量 和 输入 张 量 有 相同 的 维度 , 但 是 输出 张 量 有 20 个 通道 , 这 表示 对 输入 图 像 
使 用 了 20 个 过 滤器 。 


7.3.3 引入 非 线 性 


在 卷 积 步骤 中 ， 提 到 了 要 把 卷 积 步 又 的 输出 输入 ReLU 激活 函数 中 来 引入 非 线性 ， 
如 图 7.6 所 示 。 




















图 7.6 ReLU 激活 函数 
其 中 ， 输 出 =Max (0， 输 入 )。 
ReLU 激活 函数 把 所 有 负 的 像素 值 奉 换 为 零 。 把 卷 积 步骤 的 输出 输入 这 个 激活 函数 
的 主要 目的 是 在 输出 图 像 中 引入 非 线性 ， 这 对 训练 过 程 非 常 有 用 ， 因 为 数据 通常 都 是 非 
线性 的 。 为 了 对 ReLU 激活 函数 的 好 处 有 个 清楚 的 了 解 ， 可 以 看 看 图 7.7， 它 展示 了 卷 积 
步骤 的 行 输出 以 及 它 的 修正 版 本 。 








输入 特征 映射 修正 特征 映射 


只 有 非 负 值 




















图 7.7 ReLU 应 用 在 输入 特征 映射 上 的 结果 
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7.3.4 池 化 步骤 
学 习 过 程 中 很 重要 的 一 步 是 池 化 步骤 ， 它 有 时 也 称 为 下 采样 或 者 降 采 样 。 这 一 步骤 
旨 在 减少 卷 积 步 又 输出 《特征 上 映射) 的 维 数 。 池 化 步骤 的 优点 是 能 够 减少 特征 映射 的 尺 
寸 ， 同 时 在 新 缩减 的 版 本 里 保留 重要 的 信息 。 
图 7.8 通过 一 个 2x2 的 过 滤器 以 步 长 2 在 图 像 上 扫描 ， 同 时 在 每 个 位 置 上 使 用 最 大 
化 操作 来 展示 这 一 步骤 。 这 种 池 化 操作 称 为 最 大 池 化 (max pooling). 



























































Max(1,1,5,6)=6 








通过 一 个 2x2 的 

















过 滤器 以 步 长 2 3 
进行 最 大 池 化 : 
3|4 




















修正 特征 映射 
































Ed 7.8 使 用 2x2 窗口 在 修正 特征 映射 ( 卷 积 和 ReLU 操作 后 获得 ) 上 
贰 用 最 大 池 化 操作 的 一 个 例子 〈 图 片 来 源 : textminingon line 网 站 ) 



























































I 





可 以 用 下 面 的 代码 将 卷 积 步 又 的 输出 连接 到 池 化 层 。 





pool_layerl = tf.layers.max pooling2d(inputs-conv layerl, pool size-[2, 2],strides=2) 


池 化 层 接收 从 卷 积 步 又 得 到 的 有 以 下 形状 的 输入 。 

















[batch size, image width, image height, channels] 


比如 在 数字 分 类 任务 中 ， 池 化 层 的 输入 有 以 下 形状 。 




















[batch size, 28, 28, 20] 


池 化 操作 的 输出 有 以 下 形状 。 
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[batch size, 14, 15, 20] 

在 本 例 中 ， 卷 积 步 骤 的 输出 尺寸 减少 了 $0%。 这 个 步骤 非常 重要 ， 因 为 它 仅仅 把 习 
要 的 信息 保留 了 下 来 ， 同 时 还 减 小 了 模型 的 复杂 度 ， 从 而 避免 过 拟 合 。 
7.3.5 全 连接 层 


在 把 一 系列 卷 积 和 池 化 步 又 堆 二 起 来 后 , 就 可 以 把 它们 和 一 个 全 连接 层 连接 在 一 起 ， 
从 输入 图 像 提取 的 高 层级 的 特征 就 会 输入 全 连接 层 当 中 ， 此 时 就 可 以 使 用 它们 并 基于 这 
些 特征 来 完成 实际 的 分 类 ， 如 图 7.9 所 示 。 





pu 



























































连接 和 权重 在 这 里 
没有 显示 
3 59 (0.01) 
猫 (0.04) 4 种 可 能 的 输出 
船 (0.94) 
& (0.02) 




















个 节点 都 和 相 邻 层 的 其 他 节点 相连 


























例如 ,对 于 数字 分 类 任务 , 可 以 在 卷 积 和 池 化 步骤 之 后 接 一 个 包含 1024 个 神经 元 的 
全 连接 层 以 及 一 个 ReLU 激活 函数 来 做 实际 的 分 类 。 这 个 全 连接 层 接受 的 输入 格式 如 下 。 


























[batch size, features] 


所 以 ， 需 要 从 pool_layer1" 重 塑 或 者 说 压 平 输入 特征 映射 以 符合 这 个 格式 。 可 以 用 
下 面 的 代码 重 塑 输出 。 























pooll flat = tf.reshape(pool_layerl, [-1, 14 * 14 * 20]) 


在 这 个 重 塑 函数 中 ， 用 -1 来 表明 批 尺 寸 是 动态 决定 的 。 在 pool layerl 输出 里 ， 每 
一 个 样本 的 宽度 都 为 14， 高 度 都 为 14， 同 时 有 20 个 通道 。 


所 以 重 塑 操作 的 最 后 输出 的 形状 如 下 。 





















































[batch size, 3136] 


最 后 ， 可 以 用 TensorFlow 中 的 dense() 函 数 通 过 指定 神经 元 (单元) 数量 和 最 终 激活 
































(D 原文 此 处 为 “pool layer2”， 应 为 笔 误 。 一 一 译 者 注 
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函数 来 定义 全 连接 层 。 








dense_layer = tf.layers.dense(inputs=pooll flat, units=1024, 


activation=tf.nn.relu) 
取 对 数 层 


最 后 ， 我 们 需要 一 个 取 对 数 层 ， 它 接受 全 连接 层 的 输出 ， 然 后 产生 原始 的 预测 值 。 
比如 ， 在 数字 分 类 问题 中 ， 输 出 会 是 e eens a 
类 的 分 数 。 如 图 7.10 所 示 ， 对 于 数字 分 类 示例 定义 一 个 取 对 数 层 ， 这 里 只 需要 10 个 输 
出 ， 同 时 使 用 线性 激活 ， 这 是 Tensorflow 中 ea 












































logits layer = tf.layers.dense(inputs-dense layer, units=10) 


卷 积 池 化 卷 积 池 化 全 连接 PER 输出 预测 
+ReLU +ReLU 








出 值 )? 





x 





图 像 中 提取 特征 分 类 
Ed 7.10 训练 卷 积 网 络 














取 对 数 层 最 后 的 输出 是 具有 以 下 形状 的 张 量 。 


[batch_size, 10] 


正如 前 面 所 提 到 的 ， 模 型 的 取 对 数 层 会 返回 批 次 的 原始 预测 。 如 图 7.11 所 示 ， 需 要 
把 这 些 数值 转换 为 可 以 解释 的 格式 。 


e 输入 样本 0 一 9 的 预测 类 别 。 
e 每 个 可 能 类 别 的 分 数 或 者 概率 ， 比 如 ， 样 本 的 概率 是 0 或 1 等 。 


所 以 ， 这 里 预测 的 类 别 是 10 个 概率 值 中 最 高 的 。 可 以 像 下 面 一 样 使 用 argmax 函数 
获得 这 个 值 。 


tf.argmax(input-logits layer, axis=1) 
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7.4 CNN 基础 示例 一 一 MNIST 手写 数字 分 类 














司 层 的 可 视 化 (图 片 来 源 ，GitHub 网 站 ) 











i | 
Q 
A 
> 
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logits layer 的 形状 如 下 。 
[batch_size, 10] 
因此 ， 需 要 在 预测 当中 找到 最 大 值 ， 即 索引 为 1 的 维度 。 


最 后 ， 可 以 通过 将 softmax 激活 函数 应 用 于 logits layer 的 输出 来 获得 下 一 个 值 〈 这 
表示 每 个 目标 类 的 概率 )， 这 将 把 每 个 值 压缩 到 0 一 1。 
































tf.nn.softmax (logits layer, name="softmax tensor") 


7.4 CNN 基础 示例 一 一 MNIST 手写 数字 分 类 























本 节 将 使 用 MNIST 数据 集 完成 一 个 实现 CNN 数字 分 类 的 完整 示例 。 本 节 将 构建 














个 包含 两 个 卷 积 层 和 两 个 全 连接 层 的 简单 模型 。 











首先 ， 导 入 所 需要 的 库 。 











smatplotlib inline 

import matplotlib.pyplot as plt 

import tensorflow as tf 

import numpy as np 

from sklearn.metrics import confusion_matrix 


import math 


然后 ， 使 用 TensorFlow 辅助 函数 来 下 载 和 预 处 理 MNIST 数据 集 。 
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from tensorflow.examples.tutorials.mnist import input_data 
input data.read data sets('data/MNIST/', one_hot=True) 


mnist data 


输出 如 下 。 


Successfull ownload 


S1 


yd ed train-images-idx3-ubyte.gz 9912422 bytes. 


ata/MNIST/train-images-idx3-ubyte.gz 


train-labels-idxl-ubyte.gz 28881 bytes. 


Extracting d 


Successfully d 


ata/MN 


ownloaa 


$1 


y ed 
l/train-labels-idxl-ubyte.gz 


tlOk-images-idx3-ubyte.gz 1648877 bytes. 


Extracting 
Successfully d 


ata/MN 


ownloada 


S1 


y ed 


d l'/tlO0k-images-idx3-ubyte.gz 
oad tlOk-labels-idxl-ubyte.gz 4542 bytes. 


ST/t10k-labels-idxl-ubyte.gz 


ALM x8 


Extracting 




















Successfully d 


ata/MN 


y downl ed 


a 

















Extracting 


数据 集 分 为 3 个 不 相交 的 集 
集合 中 的 图 像 数量 。 





E 


a, 
Ae 


训练 集 、 验 证 集 


us 





过 以 下 代 





Am 























print("- Number of images in the training 
set:\t\t{}". format (len (mnist_data.train.labels))) 
print ("- Number of images in the test 
set:\t\t{}".format (len (mnist_data.test.labels))) 
print("- Number of images in the validation 


set:\t{}".format (len(mnist_data.validation.labels) )) 


- Number of images in the training set: 55000 
10000 


- Number of images in the validation set: 


因为 图 像 真实 的 标签 以 独 热 “one-hot) 编码 的 格式 存储 ， 所 以 会 有 一 个 
数值 的 数组 ， 除 了 图 像 类 别 的 索引 外 ， 该 数组 其 余 位 置 皆 为 0。 为 了 方便 后 
要 以 整数 的 形式 获得 数据 集 的 类 别 号 。 


mnist_data.test.cls_integer np.argmax(mnist data.test.labels, 


知 的 变量 ， 以 便 在 后 面 的 实现 中 使 


# Default size for the input monocrome images of MNIST 
28 


- Number of images in the test set: 
5000 





D 















































axis- 





ma! 
Ly 
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定义 一 些 





出 | 











image_size 


# Each image is stored as vector of this size. 


image_size flat = image_size * image_size 


码 输出 每 个 


含 10 


包 
续 使 用 


) 
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By 


The shape of each image 


image shape = (image size, image size) 


All the images in the mist dataset are stored as a monocrome with only 1 channel 


num channels = 1 


Number of classes in the MNIST dataset from 0 till 9 which is 10 


num_classes = 10 
接 下 来 ， 需 要 定义 一 个 辅助 函数 来 绘制 数据 集中 的 一 些 图 像 。 该 辅助 函数 将 在 9 个 
的 网 格 中 绘制 图 像 。 


def plot_imgs(imgs, cls_actual, cls predicted-None): 



































assert len(imgs) -- len(cls actual) -- 

# create a figure with 9 subplots to plot the images. 
fig, axes = plt.subplots(3, 3) 

fig.subplots adjust(hspace-0.3, wspace-0.3) 


for i, ax in enumerate (axes.flat): 
# plot the image at the ith index 


ax.imshow(imgs[i].reshape(image shape), cmap='binary') 


# labeling the images with the actual and predicted classes. 
if cls predicted is None: 
xlabel = "True: {0}".format(cls_actual[i]) 
else: 
xlabel = "True: {0}, Pred: (1)".format(cls actual[i],cls predicted[i] 


# Remove ticks from the plot. 
ax.set xticks([]) 
ax.set yticks([]) 
# Show the classes as the label on the x-axis. 
ax.set xlabel (xlabel) 

plt.show() 


现在 从 测试 集中 绘制 一 些 图 像 并 查看 它 的 外 观 。 





























# Visualizing 9 images form the test set. 





imgs = mnist data.test.images[0:9] 


# getting the actual classes of these 9 images 


cls_actual = mnist_data.test.cls_integer[0:9] 
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#plotting the images 


plot imgs(imgs-imgs, cls_actual=cls_actual) 


输出 如 图 7.12 所 示 。 





N| 
m 


True: 7 True: 2 True: 1 


e| 
£ 


True: 0 True: 4 True: 1 





Ey 
2 
4 


True: 4 True: 9 True: 5 


图 7.12 MNIST 数据 集中 部 分 样本 的 可 视 化 



































TAA 构建 模型 


下 面 开始 搭建 模型 的 核心 。 计算 图 包含 本 章 前 面 提 到 的 所 有 层 。 首 先 定 义 一 些 函 数 ， 
这 些 函 数 将 用 于 定义 特定 形状 的 变量 并 随机 初始 化 它们 。 






































D 
































def new weights (shape): 


return tf.Variable(tf.truncated normal(shape, stddev-0.05)) 


def new biases (length): 
return tf.Variable(tf.constant(0.05, shape-[length])) 


现在 ， 根 据 输 入 层 、 输 入 通道 、 过 滤器 尺寸 、 过 滤器 数量 以 及 是 否 使 用 池 化 参数 ， 
定义 将 负责 创建 新 卷 积 层 的 函数 。 


















































def conv_layer(input, # the output of the previous layer. 
input_channels, 
filter size, 
filters, 


use pooling-True): # Use 2x2 max-pooling. 


# preparing the accepted shape of the input Tensor. 


shape = [filter size, filter size, input channels, filters] 


# Create weights which means filters with the given shape. 
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By 


filters weights = new weights (shape=shape) 


Create new biases, one for each filter. 


filters biases = new biases (length=filters) 


Calling the conve2d function as we explained above, were the strides parameter 
has four values the first one for the image number and the last 1 for the 


input image channel 








the middle ones represents how many pixels the filter should move with in 
the x and y axis 
conv_layer = tf.nn.conv2d(input=input, 
filter=filters_weights, 
strides=[1, 1, 1, 1], 
padding-'SAME') 


# Adding the biase to the output of the conv layer. 


conv layer += filters biases 


# Use pooling to down-sample the image resolution? 


if use pooling: 


# reduce the output feature map by max pool layer 

pool layer = tf.nn.max pool(value-conv layer, 
ksize-[1, 2, 2, 1], 
strides-[1, 2, 2, 1], 
padding-'SAME') 


feeding the output to a ReLU activation function. 


relu layer = tf.nn.relu(pool layer) 


return the final results after applying relu and the filter weights 


return relu layer, filters weights 











正如 前 面 提 到 的 ， 池 化 层 产生 了 一 个 4 维 张 量 。 需 要 将 这 个 4 维 张 量 压 成 2 维 张 量 
以 输入 全 连接 层 中 。 


























def flatten layer (layer): 
# Get the shape of layer. 
shape = layer.get shape() 


# We need to flatten the layer which has the shape of The shape [num_images, 


image_height, image_width, num_channels] 
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# so that it has the shape of [batch_size, num_features] where 


number features is image height * image width * num channels 


number features = shape[1:4].num elements () 
# Reshaping that to be fed to the fully connected layer 


flatten layer = tf.reshape(layer, [-1, number features]) 


# Return both the flattened layer and the number of features. 


return flatten layer, number features 


该 函数 创建 一 个 全 连接 层 ， 并 假设 输入 是 2 维 张 量 。 





























def fc layer(input, # the flatten output. 
num inputs, 4 Number of inputs from previous layer 
num outputs, # Number of outputs 
use relu-True): # Use ReLU on the output to remove negative 


values 


# Creating the weights for the neurons of this fc layer 
fc weights = new weights (shape-[num inputs, num outputs]) 


fc biases = new biases (length-num outputs) 


# Calculate the layer values by doing matrix multiplication of 
# the input values and fc weights, and then add the fc bias-values. 
fc layer = tf.matmul(input, fc weights) + fc biases 
# if use RelU parameter is true 
if use relu: 
relu layer = tf.nn.relu(fc layer) 


return relu layer 


return fc layer 


在 开始 构建 网 络 前 ， 先 给 输入 图 像 定义 一 个 占 位 符 ， 其 中 第 一 维 用 None 来 表示 任 
意 数 量 的 图 像 。 
























































input values = tf.placeholder(tf.float32, shape-[None,image size flat],name- 


'input values') 


正如 前 面 提 到 的 ， 卷 积 步 骤 要 求 输 入 图 像 是 4 维 张 量 。 所 以 ， 需 要 将 输入 图 像 重 塑 
成 以 下 形状 。 








"n 





[num images, image height, image width, num channels] 
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重 塑 输入 值 以 匹配 这 个 格式 。 


input image = tf.reshape(input values, [-1, image size, image size, num channels]) 


接 下 来 ， 按 照 独 热 编码 格式 为 实际 的 类 别 值 定 义 另 一 个 占 位 符 。 








y_actual = tf.placeholder(tf.float32, shape=[None, num_classes], 


name-'y actual') 


同时 ， 还 需要 定义 一 个 占 位 符 来 存储 实际 类 别 的 整数 值 。 























y_actual_cls_integer = tf.argmax(y_actual, axis=1) 


现在 开始 搭建 第 一 个 CNN. 











conv layer 1, convl_weights = \ 
conv_layer (input=input_image, 
input_channels=num_channels, 
filter size-filter size 1, 
filters-filters 1, 


use pooling-True) 


仿 查 第 一 个 卷 积 层 产 生 的 输出 张 量 的 形状 。 




















conv layer 1 


输出 如 下 。 


«tf.Tensor 'Relu:0' shape=(?, 14, 14, 16) dtype=float32> 
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conv layer 2, conv2 weights = \ 
conv layer(input-conv layer 1, 
input channels-filterl, 
filter size-filter size 2, 
filters-filters 2, 


use pooling-True) 


同时 还 需要 再 次 检查 一 下 第 二 个 卷 积 层 的 输出 张 量 的 形状 。 它 的 形状 应 该 是 (?, 7, 7, 
36)， 这 里 “? ”表示 任意 数量 的 图 像 。 
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接 下 来 ， 需 要 把 4 维 张 量 压 平 以 匹配 全 连接 层 所 要 求 的 格式 ， 也 就 是 要 将 它 压 平 成 
一 个 2 维 张 量 。 








flatten layer, number features = flatten layer(conv layer 2) 


再 次 检查 压 平 层 中 输出 张 量 的 形状 。 




















flatten layer 


输出 如 下 。 


<tf.Tensor 'Reshape 1:0' shape=(?, 1764) dtype=float32> 


接 下 来 ， 构 建 全 连接 层 ， 并 把 压 平 层 的 输出 输入 全 连接 层 里 。 全 连接 层 的 输出 在 输 
入 第 二 个 全 连接 层 之 前 还 会 输入 ReLU 激活 函数 里 。 






































fc layer 1 = fc layer(input-flatten layer, 
num inputs-number features, 
num outputs-fc num neurons, 


use relu-True) 


再 次 检查 第 一 个 全 连接 层 中 输出 张 量 的 形状 。 











fc layer 1 


输出 如 下 。 


<tf.Tensor 'Relu_2:0' shape=(?, 128) dtype=float32> 


接 下 来 ， 添 加 另 一 个 全 连接 层 ， 它 将 接受 第 一 个 全 连接 层 的 输出 ， 然 后 对 每 幅 
一 个 长 度 为 10 的 数组 ， 该 数组 表示 各 个 目标 类 别 是 正确 类 别 的 分 数 。 








让 








DS 


像 产 4 


















































fc layer 2 = fc layer(input-fc layer 1, 
num inputs-fc num neurons, 
num outputs-num classes, 
use relu-False) 


fc layer 2 
输出 如 下 。 


<tf.Tensor 'add 3:0' shape=(?, 10) dtype=float32> 
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接 下 来 ， 归 一 化 第 二 个 全 连接 层 的 分 数 并 把 它 输入 softmax 激活 函数 中 ， 它 将 数值 
压缩 到 0 一 1 。 








y_predicted = tf.nn.softmax(fc_layer_2) 


最 后 ， 用 TensorFlow 的 argmax 函数 选择 拥有 最 高 概率 的 目标 类 别 。 





y_predicted_cls_integer = tf.argmax(y_predicted, axis=1) 


1. 成 本 函数 


Hc. Bere MPERETR Py, BME. OAR FHSS lle TE, Sz SR 
值 就 为 0。 
































cross entropy = tf.nn.softmax_cross_entropy_with_logits (logits=fc_layer_2, labels= 


y_actual) 
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model cost = tf.reduce mean(cross entropy) 


现在 ， 因 为 需要 优化 或 最 小 化 损失 函数 ， 所 以 要 使 用 AdamOptimizer， 它 是 类 似 于 
梯度 下 降 法 但 更 先进 一 些 的 优化 方法 。 






































model_optimizer = 





tf.train.AdamOptimizer(learning rate-1e-4).minimize (model cost) 


2. 性能 指标 


为 了 展示 输出 ， 定 义 一 个 变量 来 判断 预测 类 别 是 否 等 于 真实 类 别 。 











model_correct_prediction = tf.equal(y_predicted_cls_integer, y_actual_cls_integer) 


通过 强制 转换 为 布尔 值 ， 然 后 把 正确 分 类 的 数量 相 加 并 求 平 均值 来 计算 模型 的 准确 率 。 














4 
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model accuracy = tf.reduce mean(tf.cast(model correct prediction, 
tf.float32)) 


7.4.2. ”训练 模型 
现在 创建 一 个 会 话 变 量 来 启动 训练 过 程 ， 该 变量 将 负责 执行 之 前 定义 的 计算 图 。 
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session = tf.Session() 


此 外 ， 需 要 初始 化 到 目前 为 止 已 定义 的 变量 。 





session.run(tf.global variables initializer () 


将 分 批 提供 图 像 以 避免 出 现 内 存 不 足 的 错误 。 





train_batch_size = 64 


在 开始 训练 过 程 之 前 ， 需 要 定义 一 个 辅助 函数 ， 该 函数 通过 迭代 训练 批 次 来 执行 优 
化 过 程 。 























# number of optimization iterations performed so far 


total iterations = 0 


def optimize (num iterations): 


# Update globally the total number of iterations performed so far. 
global total iterations 


for i in range (total iterations, 


total iterations + num iterations): 


# Generating a random batch for the training process 

# input batch now contains a bunch of images from the training set and 
# y actual batch are the actual labels for the images in the input batch. 
input batch, y_actual_batch = 


mnist data.train.next batch (train batch size) 


# Putting the previous values in a dict format for Tensorflow to 
automatically assign them to the input 

# placeholders that we defined above 

feed dict = {input values: input batch, 


y_actual: y_actual_batch} 


# Next up, we run the model optimizer on this batch of images 


session.run(model_optimizer, feed_dict=feed_dict) 
# Print the training status every 100 iterations. 


if i $ 100 == 


# measuring the accuracy over the training set. 
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By 


acc_training_set = session.run(model_accuracy, 
feed dict-feed dict) 
#Printing the accuracy over the training set 
print("Iteration: {0:>6}, Accuracy Over the training set: {1:>6.1%}". 


format(i + 1, aco training set)) 


# Update the number of iterations performed so far 


total iterations += num iterations 


另外 定义 一 些 辅助 函数 来 帮助 可 视 化 模型 的 结果 ， 并 查看 哪些 图 像 被 模型 错误 分 类 。 












































def plot_errors(cls_predicted, correct): 
cls_predicted is an array of the predicted class number of each image in 
the test set. 


Extracting the incorrect images. 

incorrect = (correct == False) 

Get the images from the test-set that have been 
incorrectly classified. 


images = mnist_data.test.images[incorrect] 





Get the predicted classes for those incorrect images. 


cls_pred = cls_predicted[incorrect] 





Get the actual classes for those incorrect images. 


cls_true = mnist_data.test.cls_integer[incorrect] 








Plot 9 of these images 
plot_imgs (imgs=imgs[0:9], 
cls_actual=cls_actual[0:9], 


cls predicted-cls predicted[0:9] 


还 可 以 绘制 预测 结果 与 真实 类 别 的 混淆 矩阵 。 




















def plot confusionMatrix(cls predicted): 


cls predicted is an array of the predicted class number of each image in the 


test set. 


Get the actual classes for the test-set. 


cls actual = mnist data.test.cls integer 








Generate the confusion matrix using sklearn. 
conf matrix - confusion matrix(y true-cls actual, 


y pred-cls predicted) 
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# Print the matrix. 


print (conf_matrix) 


# visualizing the confusion matrix. 


plt.matshow (conf matrix) 


plt.colorbar () 

tick marks = np.arange (num classes) 
plt.xticks(tick marks, range (num classes)) 
plt.yticks(tick marks, range (num classes)) 


plt.xlabel('Predicted class') 








plt.ylabel('True class') 


# Showing the plot 








plt.show() 









































最 后 ， 定 义 一 个 辅助 函数 来 辅助 测量 训练 模型 在 测试 集 上 的 准确 性 。 





# measuring the accuracy of the trained model over the test set by 
splitting it into small batches 
test_batch_size = 256 


def test accuracy(show errors-False, 


show confusionMatrix-False): 


number of test images 


number test - len(mnist data.test.images) 
define an array of zeros for the predicted classes of the test set which 
will be measured in mini batches and stored it. 


cls predicted = np.zeros(shape-number test, dtype-np.int) 


measuring the predicted classes for the testing batches. 








Starting by the batch at index 0. 
i- 0 


while i « number test: 
# The ending index for the next batch to be processed is j. 


j = min(i + test batch size, number test) 
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By 


# Getting all the images form the test set between the start and end 
indices 


input images = mnist data.test.images[i:j, :] 


# Get the acutal labels for those images. 


actual labels - mnist data.test.labels[i:j, :] 


# Create a feed-dict with the corresponding values for the input 
placeholder values 
feed dict - (input values: input images, 


y actual: actual labels] 


cls predicted[i:j] = session.run(y predicted cls integer, feed dict- 
feed dict) 


# Setting the start of the next batch to be the end of the one that we 
just processed j 


e 


Get the actual class numbers of the test images. 


cls actual = mnist data.test.cls integer 


Check if the model predictions are correct or not 


correct = (cls actual == cls predicted) 





Summing up the correct examples 


correct number images = correct.sum() 


measuring the accuracy by dividing the correclty classified ones with 
total number of images in the test set. 


testset accuracy = float(correct number images) / number test 











Showing the accuracy. 


print ("Accuracy on Test-Set: {0:.1%} ((1) / 
(2))".format(testset accuracy, correct number images, number test) ) 


# showing some examples form the incorrect ones. 
if show errors: 
print("Example errors:") 


plot errors(cls predicted-cls predicted, correct=correct) 


# Showing the confusion matrix of the test set predictions 


if show confusionMatrix: 
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print ("Confusion Matrix:") 


plot_confusionMatrix(cls_predicted=cls_predicted) 


在 进行 优化 之 前 ， 在 测试 集 上 输出 已 创建 模型 的 准确 率 。 






































test accuracy() 


输出 如 下 。 


Accuracy on Test-Set: 4.1% (410 / 10000) 


通过 运行 一 次 迭代 的 优化 过 程 ， 可 以 了 解 到 优化 过 程 实际 上 增强 了 模型 功能 ， 以 便 
将 图 像 划分 到 正确 的 类 中 。 














optimize (num_iterations=1) 


输出 如 下 。 


oe 


teration: 1, Accuracy Over the training set: 4.7 


test accuracy() 


输出 如 下 。 





Accuracy on Test-Set: 4.4% (437 / 10000) 


现在 开始 训练 ， 即 开始 10000 VIET EET EEFE. 


optimize (num iterations=9999) #We have already performed 1 iteration. 


在 输出 结束 时 ， 我 们 应 该 得 到 非常 接近 以 下 输出 的 内 容 。 





teration: 7301, Accuracy Over the training set: 96.9% 


teration: 7401, Accuracy Over the training set: 100.0% 
teration: 7501, Accuracy Over the training set: 98.4% 
teration: 7601, Accuracy Over the training set: 98.4% 
teration: 7701, Accuracy Over the training set: 96.9% 
teration: 7801, Accuracy Over the training set: 96.9% 
teration: 7901, Accuracy Over the training set: 100.0% 
teration: 8001, Accuracy Over the training set: 98.4% 
teration: 8101, Accuracy Over the training set: 96.9% 


teration: 8201, Accuracy Over the training set: 100.0% 








人 








teration: 8301, Accuracy Over the training set: 98.4% 
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teration: 
teration: 
teration: 
teration: 
teration: 
teration: 
teration: 
teration: 
teration: 
teration: 
teration: 
teration: 
teration: 
teration: 
teration: 


teration: 





teration: 


8401, Accuracy Over 
8501, Accuracy Over 
8601, Accuracy Over 
8701, Accuracy Over 
8801, Accuracy Over 
8901, Accuracy Over 
9001, Accuracy Over 
9101, Accuracy Over 
9201, Accuracy Over 
9301, Accuracy Over 
9401, Accuracy Over 
9501, Accuracy Over 
9601, Accuracy Over 
9701, Accuracy Over 


9801, Accuracy Over 
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9901, Accuracy Over 
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he training 
he training 
he training 
he training 
he training 
he training 
he training 
he training 
he training 
he training 
he training 
he training 
he training 
he training 


he training 








he training 


set: 98.4% 
set: 96.9% 
set: 100.0% 
set: 98.4% 
set: 100.0% 
set: 98.4% 
set: 100.0% 
set: 96.9% 
set: 98.4% 
set: 98.4% 
set: 100.0% 
set: 100.0% 
set: 98.4% 





set: 100.0% 
set: 100.0% 
set: 100.0% 


10001, Accuracy Over the training set: 98.4% 


现在 ， 查 看 模型 在 测试 集 上 如 何 泛 化 。 








test accuracy (show errors=True, 


输出 如 下 。 


show_confusionMatrix=True) 


Accuracy on Test-Set: 92.8% (928 


Example errors: 


输出 结果 如 





图 7.13 所 示 。 
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图 7.13 
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图 7.14 测试 集 上 的 混淆 矩阵 


9 趣 的 是 ， 在 使 用 基本 卷 积 网 络 时 ， 实 际 上 在 测试 中 获得 了 接近 93% 的 准确 率 。 这 
个 实现 和 结果 展示 了 一 个 简单 的 卷 积 网 络 可 以 做 什么 。 
























































本 章 介绍 了 CNN 的 工作 原理 和 技术 细节 , 同时 还 介绍 了 如 何在 TensorFlow 中 实现 CNN 


















































下 一 章 将 演示 更 高 级 的 体系 结构 ， 这 些 体 系 结构 可 用 于 数据 科学 家 广泛 使 用 的 图 像 
数据 集中 的 目标 检测 。 我 们 还 将 看 到 CNN 的 优点 以 及 它 如 何 模仿 人 类 对 物体 的 理解 : 首 
先 实 现 对 象 的 基本 特征 ， 然 后 在 它们 上 构建 更 高 级 的 语义 特征 来 实现 分 类 。 虽 然 这 个 过 
程 会 在 我 们 的 脑海 中 “一 内 而 过 ” 但 它 确实 是 我 们 识别 物体 时 实际 发 生 的 事情 。 
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在 介绍 了 卷 积 神经 网 络 (CNN) 背后 的 基础 知识 和 直觉 〈 动 机 ) 之 后 ， 本 章 将 在 物 
体检 测 方面 最 著名 的 数据 集 上 进行 演示 。 同 样 地 ， 你 将 会 看 到 CNN 前 面 的 一 些 层 是 如 
何 提取 关于 物体 的 一 些 基 本 特征 的 ， 而 最 后 的 卷 积 层 将 会 提取 更 多 的 语义 级 特征 ， 这 些 
特征 都 是 从 前 面 层 的 基本 特征 中 构建 而 来 的 。 

本 章 将 包含 以 下 两 个 主题 。 

@ 目标 检测 。 

@ CIFAR-10 图 像 目 标 检 测 









































































































































构建 与 训练 模型 。 








8.4 目标 检测 


维基 百科 指出 : 
“目标 检测 计算 机 视觉 领域 的 技术 , 则 在 查找 和 识别 位 于 图 像 或 视频 序 

列 中 的 对 象 。 尽 管 当 平移 或 旋转 物体 时 ， 物 体 的 图 像 可 能 有 不 同 的 视点 、 不 同 

的 大 小 和 尺度 ， 但 是 人 类 都 能 够 很 容易 地 识别 出 图 像 中 的 多 个 物体 。 甚 至 当 物 

体 被 部 分 遮挡 时 ， 人 类 都 能 够 识别 出 这 些 物 体 。 但 这 项 任务 对 于 计算 机 视觉 系 

统 来 说 仍然 是 一 项 挑战 。 几 十 年 来 ， 完 成 这 项 任务 的 很 多 方法 都 已 经 实现 了 。” 

图 像 分 析 是 深度 学 习 中 最 突出 的 领域 之 一 。 图 像 易 于 生成 和 人 处理， 它们 也 是 机 器 学 
习 中 的 正确 数据 类 型 ， 对 于 人 类 容易 理解 ， 但 对 于 计算 机 很 难 。 所 以 图 像 分 析 在 深度 神 
经 网 络 历史 中 发 挥 了 关键 作用 也 是 不 足 为 奇 的 。 

随 着 自动 驾驶 汽车 、 面 部 检测 、 智 能 视频 监控 和 人 口 统计 解决 方案 的 兴起 
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要 快速 、 准 确 的 目标 检测 系统 。 这 些 系统 不 仅 包 括 图 像 中 的 目标 识别 和 分 类 ， 还 可 以 通 
过 在 它们 周围 绘制 适当 的 方 框 来 定位 每 一 个 目标 。 这 也 使 得 目标 检测 比 传统 的 计算 机 视 
觉 前 身 一 一 图 像 分 类 任务 更 加 困难 。 

本 章 的 重点 是 目标 检测 ， 即 找到 图 像 中 有 哪些 物体 。 例 如 ， 如 图 8.1 所 示 ， 一 辆 自 
动 莒 驶 汽车 需要 检测 道路 上 的 其 他 汽车 。 目 标 检 测 有 很 多 复杂 的 算法 ， 它 们 通常 需要 庞 
大 的 数据 集 、 非 常 深 的 卷 积 网 络 和 很 长 的 训练 时 间 。 



















































































图 8.1 标 检测 的 例子 〈 图 片 来 源 : B. C. Russell, A. Torralba, C. Liu, R. Fergus, W. T. Freeman, 
Object Detection by Scene Alignment, Advances in Neural Information Processing Systems, 2007 ) 
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接 下 来 的 例子 将 展示 如 何 建立 CNN 来 对 CIFAR-10 数据 集中 的 图 像 进行 分 类 。 本 节 
将 使 用 一 个 带 有 几 个 卷 积 和 全 连接 层 的 简单 卷 积 神经 网 络 。 

尽管 网 络 架 构 非 常 简单 ， 但 是 我 们 可 以 看 到 它 在 尝试 检测 CIFAR-10 数据 集 图 像 中 
的 物体 时 表现 得 还 是 非常 好 的 。 

下 面 来 看 具体 实现 。 


8.2.1 使 用 软件 包 
首先 ， 导 入 所 有 具体 实现 需要 用 到 的 软件 包 。 


8.2 CIFAR-10 目标 图 像 检测 







































































$matplotlib inline 


$config InlineBackend.figure format = 'retina' 
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from urllib.request import urlretrieve 

from os.path import isfile, isdir 

from tqdm import tqdm 

import tarfile 

import numpy as np 

import random 

import matplotlib.pyplot as plt 

from sklearn.preprocessing import LabelBinarizer 


from sklearn.preprocessing import OneHotEncoder 


import pickle 


import tensorflow as tf 


8.2.2 ”加 载 CIFAR-10 数据 集 

在 对 CIFAR-10 示例 的 代码 实现 中 , 我 们 使 用 了 CIFAR-10 数据 集 , 它 是 目标 检测 中 
使 用 最 广泛 的 数据 集 之 一 。 如 果 尚 未 下 载 该 数据 集 ， 可 以 先 定义 一 个 辅助 类 来 下 载 和 提 
取 CIFAR-10 数据 集 。 





























cifarl10 batches dir path = 'cifar-10-batches-py' 
tar gz filename = 'cifar-10-python.tar.gz' 


class DLProgress (tqdm): 
last block = 0 


def hook(self, block num-1, block size-1, total size-None): 
self.total = total size 
self.update((block num - self.last block) * block size) 
self.last block = block num 


if not isfile(tar gz filename): 
with DLProgress (unit-'B', unit scale-True, miniters-1, desc='CIFAR-10 
Python Images Batches') as pbar: 
urlretrieve( 
"https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz', 
tar_gz_filename, 


pbar.hook) 


if not isdir(cifarl10 batches dir path): 


with tarfile.open(tar gz filename) as tar: 
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tar.extractall () 


tar.close() 




















在 下 载 和 提取 CIFAR-10 数据 集 之 后 ， 可 以 发 现 它 已 经 分 为 了 5 dk. CIFAR-10 包含 
如 下 10 个 类 别 的 图 像 。 


@ 飞机 (airplane) 








© 4 (automobile) 





€ & (bird) 














© Hi (cat) 





@ Ji (dee 
e 狗 (dog) 


e 青蛙 (frog) 





€ Z (horse) 


e fi (ship) 





© FÆ (truck) 
在 深入 构建 网 络 的 核心 之 前 ， 先 做 一 些 数 据 分 析 和 预 处 理 。 
8.2.3 ”数据 分 析 与 预 处 理 


这 里 需要 分 析 数 据 集 并 进行 一 些 基 本 的 预 处 理 。 首 先 ， 定 义 一 些 辅助 函数 ， 它 能 够 
从 现 有 的 5 个 批 次 中 加 载 特定 批 次 ， 并 输出 有 关 批 次 及 其 样本 的 一 些 分 析 情 况 。 





































































































Defining a helper function for loading a batch of images 





def load batch(cifarl0 dataset dir path, batch num): 
with open(cifarl0 dataset dir path + '/data batch ' + str(batch num), 
mode='rb') as file: 
batch = pickle.load(file, encoding-'latinl') 
input features = batch['data'].reshape((len(batch['data']), 3, 32, 
32)).transpose(0, 2, 3, 1) 
target labels - batch['labels'] 


return input features, target labels 
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然后 ， 定 义 一 个 函数 ， 它 能 够 帮助 我 们 显示 特定 批 次 中 特定 样本 的 统计 数据 。 


#Defining a function to show the stats for batch ans specific sample 


def batch_image_stats(cifarl0_dataset_dir_path, batch num, sample num): 
batch nums = list(range(1, 6) 


#checking if the batch num is a valid batch number 
if batch num not in batch nums: 
print('Batch Num is out of Range. You can choose from these Batch 
nums: {}'.format (batch_nums) ) 


return None 


input features, target labels = load batch(cifarl0 dataset dir path,batch num) 


#checking if the sample num is a valid sample number 
if not (0 <= sample num « len(input features)): 
print('{} samples in batch {}. {} is not a valid sample 
number.'.format(len(input features), batch num, sample num)) 


return None 


print('\nStatistics of batch number ([(j:'.format(batch num)) 

print('Number of samples in this batch: 
()'.format(len(input features))) 

print('Per class counts of each Label: 


()'.format(dict(zip(*np.unique(target labels, return counts-True))))) 


image = input features[sample num] 
label = target labels[sample num] 
cifarlO class names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 


'dog', 'frog', 'horse', 'ship', 'truck'] 


print('\nSample Image Number {}:'.format (sample_num) ) 

print ('Sample image - Minimum pixel value: {} Maximum pixel value: 
{}'. format (image.min(), image.max())) 

print('Sample image - Shape: {}'.format (image.shape) ) 

print('Sample Label - Label Id: {} Name: {}'.format (label, 
cifarl10 class names [label] ) 

plt.axis('off') 


plt.imshow (image) 
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现在 ， 可 以 使 用 此 函数 来 处 理 数据 集 并 可 视 化 特定 图 像 。 





# Explore a specific batch and sample from the dataset 
batch num = 3 
sample num = 6 


batch image stats(cifarl0 batches dir path, batch num, sample num) 
T = 
输出 结果 如 下 所 示 。 


Statistics of batch number 3: 

Number of samples in this batch: 10000 

Per class counts of each Label: {0: 994, 1: 1042, 2: 965, 3: 997, 4: 990, 
5: 1029, 6: 978, 7: 1015, 8: 961, 9: 1029} 


Sample Image Number 6: 

Sample image - Minimum pixel value: 30 Maximum pixel value: 242 
Sample image - Shape: (32, 32, 3) 

Sample Label - Label Id: 8 Name: ship 


输出 的 图 像 如 图 8.2 所 示 。 

在 继续 将 数据 集 提 供给 模型 之 前 , 还 需要 将 它 
归 一 化 到 0 一 1。 

批量 标准 化 优化 了 网 络 训练 .已 证 明 它 有 以 下 
几 个 好 处 。 

e 更 快 的 训练 速度 。 由 于 在 网 络 的 前 向 传递 

期 间 存在 额外 的 计算 ， 并 且 在 反 向 传播 过 

程 中 有 待 训练 的 额外 超 参 数 ， 因 此 训练 的 

每 一 步 将 会 变 得 更 慢 。 但 是 ， 它 能 够 更 快 

速 地 收 化 ， 因 此 整体 训练 速度 将 会 更 快 。 
@ 更 大 的 学 习 率 。 通常 来 说 , 梯度 下 降 算 法 需 

要 较 小 的 学 习 率 才能 使 得 网 络 收敛 到 损失 函数 的 最 小 值 。 随 着 神经 网 络 越 来 越 深 ， 

它们 的 梯度 值 在 反 向 传播 过 程 中 变 得 越 来 越 小 ， 因 此 通常 需要 更 多 的 迭代 次 数 。 批 

量 标 准 化 的 想法 允许 我 们 使 用 更 大 的 学 习 率 ， 这 进一步 提高 了 网 络 的 训练 速度 。 
e 易于 初始 化 权重 。 权重 初始 化 可 能 很 困难 ， 当 使 用 深度 神经 网 络 时 权重 初始 化 会 

更 加 困难 。 批 量 归 一 化 使 得 我 们 在 选择 初始 化 权重 时 可 以 不 用 那么 讲究 。 



























































图 8.2 批 次 3 中 的 第 6 张 样本 图 像 
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接 下 来 ， 定 义 一 个 函数 ， 该 函数 负责 归 一 化 一 系列 输入 图 像 ， 使 得 这 些 图 像 的 像素 
值 都 处 于 0 一 1。 


#Normalize CIFAR-10 images to be in the range of [0,1] 


def normalize images (images): 

initial zero ndarray 

normalized_images = np.zeros_like(images.astype (float) ) 

The first images index is number of images where the other indices indicates 
hieight, width and depth of the image 

num_images = images.shape[0] 

Computing the minimum and maximum value of the input image to do the 


normalization based on them 


maximum value, minimum value = images.max(), images.min() 








Normalize all the pixel values of the images to be from 0 to 1 
for img in range (num images): 
normalized images[img,...] = (images[img, ...] - 


float(minimum value)) / float(maximum value - minimum value) 


return normalized images 














接 下 来 ,还 需要 实现 另 一 个 辅助 函数 来 编码 输入 图 像 的 标签 .该 函数 将 会 用 到 sklearn 
Pp 的 独 热 编码 ， 其 中 每 个 图 像 标 签 由 向 量 表示 ， 该 向 量 中 只 有 代表 图 像 类 别 索引 的 元 素 
为 1， 其 余 元 素 全 为 0。 


ke 


输出 向 量 的 大 小 取决 于 数据 集中 的 物体 类 别 数目 ， 对 于 CIFAR-10 数据 来 说 ， 这 就 


是 10 个 类 别 。 
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mi 














encoding the input images. Each image will be represented by a vector of 
zeros except for the class index of the image 


that this vector represents. The length of this vector depends on number 
of classes that we have 





the dataset which is 10 in CIFAR-10 





def one hot encode (images): 





num classes - 10 
duse sklearn helper function of OneHotEncoder() to do that 
encoder - OneHotEncoder (num classes) 
#resize the input images to be 2D 
input images resized to 2d = np.array(images).reshape(-1,1) 
one hot encoded targets - 

encoder.fit transform(input images resized to 2d) 


return one hot encoded targets.toarray() 
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下 面 调用 前 面 的 辅助 函数 来 进行 预 处 理 , 并 要 保留 数据 集 , 以 便 之 后 还 可 以 使 用 它 。 






































def preprocess persist datal(cifarl0 batches dir path, normalize images, 





one hot encode): 
num batches = 5 
valid input features - [] 
valid target labels = [ 


for batch ind in range(1, num batches + 1): 
#Loading batch 
input_features, target_labels = 

load_batch(cifarl0_batches_dir_path, batch ind) 





num validation images - int(len(input features) * 0.1) 


# Preprocess the current batch and perisist it for future use 
input features - normalize images(input features[:- 
num validation images]) 
target labels - one hot encode( target labels[:- 
num validation images]) 
#Persisting the preprocessed batch 
pickle.dump((input features, target labels), 


open('preprocess train batch ' + str(batch ind) + '.p', 'wb')) 


# Define a subset of the training images to be used for validating 
our model 

valid input features.extend(input features[- 
num validation images:]) 


valid target labels.extend(target labels[-num validation images:] 


# Preprocessing and persisting the validationi subset 

input features = normalize images( np.array(valid input features)) 

target labels = one hot encode (np.array(valid target labels)) 

pickle.dump((input features, target labels), open('preprocess valid.p', 
'wb')) 


#Now it's time to preporcess and persist the test batche 
with open(cifarl0 batches dir path + '/test batch', mode-'rb') as file: 
test batch = pickle.load(file, encoding-'latinl') 


test input features - 
test batch['data'].reshape((len(test batch['data']), 3, 32, 
32)).transpose(0, 2, 3, 1) 

test input labels = test batch['labels'] 
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# Normalizing and encoding the test batch 
input features = normalize images( np.array(test_input_features) ) 
target labels - one hot encode(np.array(test input labels)) 
pickle.dump((input features, target labels), open('preprocess test.p', 
'wb')) 
# Calling the helper function above to preprocess and persist the training, 
validation, and testing set 
preprocess persist data(cifarlO0 batches dir path, normalize images, 


one hot encode) 
现在 ， 将 预 处 理 数 据 存 入 磁盘 中 。 
还 需要 在 训练 过 程 的 不 同时 期 加 载 用 于 运行 训练 模型 的 验证 集 。 











# Load the Preprocessed Validation data 
valid_input_features, valid_input_labels = 


pickle.load(open('preprocess valid.p', mode-'rb')) 


8.2.4 建立 网 络 

下 面 建立 分 类 应 用 的 核心 部 分 一 一 CNN 架构 中 的 计算 图 。 为 了 最 大 化 这 种 实现 的 好 
处 ， 这 里 不 会 直接 使 用 TensorFlow 中 对 应 层 的 API。 相 反 ， 本 次 实现 将 会 用 到 它 的 
TensorFlow 神经 网 络 版 本 。 
首先 ， 定 义 模型 输入 占 位 符 ， 它 将 输入 图 像 、 目 标 类 和 droupout 层 中 的 保留 概率 参 
AX (dropout 层 有 助 于 我 们 丢弃 一 些 连接 来 降低 架构 的 复杂 性 ， 从 而 降低 过 拟 合 的 概率 )。 
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# Defining the model inputs 
def images input(img shape): 
return tf.placeholder(tf.float32, (None, ) + img shape, 


name-"input images") 
def target input (num classes): 

target input = tf.placeholder(tf.int32, (None, num classes), 
name-"input images target") 


return target input 


#define a function for the dropout layer keep probability 
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def keep_prob_input(): 
return tf.placeholder(tf.float32, name="keep_prob") 





接 下 来 , 需要 使 用 TensorFlow 神 经 网 络 实现 版 本 来 构建 后 接 最 大 池 化 操作 的 卷 积 层 。 








# Applying a convolution operation to the input tensor followed by max 
pooling 
def conv2d layer(input tensor, conv layer num outputs, conv kernel size, 


conv layer strides, pool kernel size, pool layer strides): 


input depth = input tensor.get shape()[3].value 


weight shape = conv kernel size + (input depth, conv layer num outputs,) 
#Defining layer weights and biases 
weights = tf.Variable(tf.random normal(weight shape)) 


biases = tf.Variable(tf.random normal((conv layer num outputs,))) 


#Considering the biase variable 


conv strides = (1,) + conv layer strides + (1,) 

conv layer = tf.nn.conv2d(input tensor, weights, strides-conv strides, 
padding-'SAME') 

conv layer = tf.nn.bias add(conv layer, biases) 


conv kernel size = (1,) + conv kernel size + (1, 


pool strides = (1,) + pool layer strides + (1, 





pool layer = tf.nn.max pool(conv layer, ksize-conv kernel size, 
strides-pool strides, padding-'SAME') 


return pool layer 








如 前 文 所 述 ， 最 大 池 化 操作 的 输出 是 一 个 4 维 张 量 ， 这 与 全 连接 层 所 需要 的 输入 格 











JJ% 




















#Flatten the output of max pooling layer to be fing to the fully connected 
layer which only accepts the output 

# to be in 2D 

def flatten_layer(input_tensor): 


return tf.contrib.layers.flatten(input_tensor) 


接 下 来 ， 需 要 定义 一 个 辅助 函数 ， 该 函数 能 够 在 之 前 的 架构 中 添加 一 个 全 连接 层 。 





























不 兼容 。 因 此 ， 还 需要 实现 一 个 展 平 层 来 将 最 大 池 化 层 的 输出 从 4 维 张 量 转换 为 2 维 
JKS 
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#Define the fully connected layer that will use the flattened output of the 
stacked convolution layers 

#to do the actuall classification 

def fully connected layer(input tensor, num outputs): 


return tf.layers.dense(input tensor, num outputs) 


最 后 ， 在 使 用 这 些 辅助 函数 来 建立 整个 网 络 结构 时 ， 还 需要 创建 另 一 个 函数 来 接受 
全 连接 层 的 输出 ， 并 生成 与 数据 集中 所 具有 的 类 别 数目 相对 应 的 10 个 实 值 。 


#Defining the output function 




































































def output layer(input tensor, num outputs): 


return tf.layers.dense(input tensor, num outputs) 


因此 ， 继 续 定 义 一 个 函数 ， 该 函数 可 以 将 所 有 这 些 技术 细节 融合 在 一 起 ， 并 创 
个 具有 3 个 卷 积 层 的 CNN。 其 中 每 一 个 卷 积 层 后面 都 有 一 个 最 大 池 化 操作 。 同 样 ， 也 会 
有 两 个 全 连接 层 ， 其 中 每 一 个 全 连接 层 后 面 都 有 一 个 droupout J£; droupout 层 用 于 降低 模 
型 复杂 性 和 防止 过 拟 合 。 最 后 ， 输 出 层 将 会 生成 包含 10 个 实 值 的 向 量 ， 其 中 每 一 个 值 代表 
每 一 个 样本 正确 分 类 的 得 分 。 


def build convolution net(image data, keep prob): 





Init 
T 


















































































































































# Applying 3 convolution layers followed by max pooling layers 

conv layer 1 = conv2d layer(image data, 32, (3,3), (1,1), (3,3), (3,3)) 
conv layer 2 = conv2d layer(conv layer 1, 64, (3,3), (1,1), (3,3), (3,3) 
conv layer 3 = conv2d layer(conv layer 2, 128, (3,3), (1,1), (3,3), (3,3) 


# Flatten the output from 4D to 2D to be fed to the fully connected layer 
flatten output = flatten layer(conv layer 3) 


# Applying 2 fully connected layers with drop out 
fully connected layer 1 = fully connected layer(flatten output, 64) 
fully connected layer 1 = tf.nn.dropout(fully connected layer 1,keep prob) 
fully connected layer 2 - fully connected layer(fully connected layer 1,32) 
fully connected layer 2 - tf.nn.dropout(fully connected layer 2,keep prob) 


#Applying the output layer while the output size will be the number of 
categories that we have 

fin CIFAR-10 dataset 

output logits = output layer(fully connected layer 2, 10) 


#returning output 


return output logits 
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现在 调用 前 面 的 辅助 函数 来 建立 网 络 ， 并 定义 其 损失 和 优化 标准 。 


#Using the helper function above to build the network 



































#First off, let's remove all the previous inputs, weights, biases form the 
previous runs 


tf.reset default graph() 


Defining the input placeholders to the convolution neural network 
input images - images input((32, 32, 3)) 

input images target - target input(10) 

keep prob = keep prob input() 


Building the models 


logits values = build convolution net(input images, keep prob) 


Name logits Tensor, so that is can be loaded from disk after training 
logits values = tf.identity(logits values, name-'logits') 


defining the model loss 





model cost - 
tf.reduce mean(tf.nn.softmax cross entropy with logits(logits-logits values, 


labels-input images target)) 


Defining the model optimizer 


model optimizer = tf.train.AdamOptimizer().minimize (model cost) 




















Calculating and averaging the model accuracy 

correct prediction = tf.equal(tf.argmax(logits values, 1), 
tf.argmax(input images target, 1) 

accuracy - tf.reduce mean(tf.cast(correct prediction, tf.float32), 
name-'model accuracy') 


tests.test conv net(build convolution net) 


既然 网 络 的 计算 架构 已 经 建立 起 来 了 ， 下 面 就 开始 训练 过 程 并 查看 结果 。 


8.2.5 训练 模型 


首先 ， 定 义 一 个 辅助 函数 ， 以 便 开始 训练 过 程 。 该 函数 以 输入 图 像 、 目 标 类 别 的 独 热 编 
码 和 droupout 中 的 保留 概率 值 作为 输入 。 然 后 ， 它 将 这 些 值 输入 计算 图 并 调用 模型 优化 器 。 


#Define a helper function for kicking off the training process 










































































def train(session, model optimizer, keep probability, in feature batch, 
target batch): 
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session.run(model_optimizer, feed dict={input images: in feature batch, 


input images target: target batch, keep prob: keep probability}) 


因为 需要 在 训练 过 程 的 不 同时 间 步 长 验证 模型 ， 所 以 需要 定义 一 个 辅助 函数 来 输 
模型 在 验证 集 上 的 准确 率 。 








Co 





























#Defining a helper funcitno for print information about the model accuracy 
and it's validation accuracy as well 
def print model stats(session, input feature batch, target label batch, 
model cost, model accuracy): 
validation loss = session.run(model cost, feed dict-(input images: 
input feature batch, input images target: target label batch, keep prob:1.0]) 
validation accuracy = session.run (model accuracy, 
feed dict-[(input images: input feature batch, input images target: 
target label batch, keep prob: 1.0}) 
print ("Valid Loss: $f" $(validation loss)) 


o 


print ("Valid accuracy: Sf" $ (validation accuracy)) 


还 需要 定义 模型 超 参数 ， 可 以 使 用 它 来 微调 模型 ， 以 获得 更 好 的 性 能 。 








# Model Hyperparameters 
num_epochs = 100 

batch size = 128 

keep probability - 0.5 


现在 ， 可 以 开始 训练 过 程 了 ， 但 是 只 针对 CIFAR-10 数据 集中 的 单个 批 次 ， 还 要 查 
看 基于 该 批 次 数据 的 模型 准确 率 。 

然而 ， 在 此 之 前 ， 需 要 定义 一 个 辅助 函数 ， 该 函数 将 加 载 一 批 训练 数据 ， 并 将 输入 
像 和 目标 类 别 分 开 。 











n 
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# Splitting the dataset features and labels to batches 
def batch split features labels(input features, target labels, 
train batch size): 
for start in range(0, len(input features), train batch size): 
end = min(start + train batch size, len(input features)) 


yield input features[start:end], target labels[start:end] 


#Loading the persisted preprocessed training batches 
def load preprocess training batch(batch id, batch size): 
filename = 'preprocess train batch ' + str(batch id) + '.p' 


input features, target labels - pickle.load(open(filename, mode-'rb')) 
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# Returning the training images in batches according to the batch size 
defined above 
return batch split features labels (input features, target labels, 


train batch size) 


现在 正式 开始 针对 一 个 批 次 的 训练 过 程 。 


print('Training on only a Single Batch from the CIFAR-10 Dataset...') 


with tf.Session() as sess: 


# Initializing the variables 


sess.run(tf.global variables initializer() 


# Training cycle 
for epoch in range (num epochs): 
batch ind = 1 


for batch features, batch labels in 
load preprocess training batch(batch ind, batch size): 
train(sess, model optimizer, keep probability, batch features, 
batch labels) 


print('Epoch number {:>2}, CIFAR-10 Batch Number {}: '.format(epoch + 1, 
batch ind), end='') 
print model stats(sess, batch features, batch labels, model cost, 


accuracy) 


输出 如 下 。 


Epoch number 85, CIFAR-10 Batch Number 1: Valid Loss: 1.490792 
Valid accuracy: 0.550000 
Epoch number 86, CIFAR-10 Batch Number 1: Valid Loss: 1.487118 
Valid accuracy: 0.525000 
Epoch number 87, CIFAR-10 Batch Number 1: Valid Loss: 1.309082 
Valid accuracy: 0.575000 


Epoch number 88, CIFAR-10 Batch Number 1: Valid Loss: 1.446488 








Valid accuracy: 0.475000 















































Epoch number 89, CIFAR-10 Batch Number 1: Valid Loss: 1.430939 
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Valid accuracy: 0.550000 

Epoch number 90, CIFAR-10 Batch Number 1: Valid Loss: 1.484480 
Valid accuracy: 0.525000 
Epoch number 91, CIFAR-10 Batch Number 1: Valid Loss: 1.345774 
Valid accuracy: 0.575000 
Epoch number 92, CIFAR-10 Batch Number 1: Valid Loss: 1.425942 


Valid accuracy: 0.575000 


Epoch number 93, CIFAR-10 Batch Number 1: Valid Loss: 1.451115 
Valid accuracy: 0.550000 
Epoch number 94, CIFAR-10 Batch Number 1: Valid Loss: 1.368719 
Valid accuracy: 0.600000 
Epoch number 95, CIFAR-10 Batch Number 1: Valid Loss: 1.336483 
Valid accuracy: 0.600000 
Epoch number 96, CIFAR-10 Batch Number 1: Valid Loss: 1.383425 
Valid accuracy: 0.575000 
Epoch number 97, CIFAR-10 Batch Number 1: Valid Loss: 1.378877 
Valid accuracy: 0.625000 
Epoch number 98, CIFAR-10 Batch Number 1: Valid Loss: 1.343391 


Valid accuracy: 0.600000 






































Epoch number 99, CIFAR-10 Batch Number 1: Valid Loss: 1.319342 
Valid accuracy: 0.625000 
Epoch number 100, CIFAR-10 Batch Number 1: Valid Loss: 1.340849 

















Valid accuracy: 0.525000 


可 以 看 到 ， 当 仅 在 单个 批 次 上 进行 训练 时 ， 经 验证 得 到 的 准确 率 并 不 高 。 下 面 来 看 
基于 模型 的 完整 训练 过 程 ， 经 验证 得 到 的 准确 率 将 会 如 何 变化 。 


model_save_ path = './cifar-10_classification' 

















with tf.Session() as sess: 
Initializing the variables 


sess.run(tf.global variables initializer() 


Training cycle 


for epoch in range (num epochs): 








iterate through the batches 


num batches = 5 
for batch ind in range(1, num batches + 1): 


for batch features, batch labels in 


load preprocess training batch(batch ind, batch size): 
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train(sess, model_optimizer, keep probability, batch features, 
batch labels) 


print ('Epoch number{:>2}, CIFAR-10 Batch Number {}: '.format (epoch + 1, 
batch ind), end='') 
print model stats(sess, batch features, batch labels, model cost, 


accuracy) 


# Save the trained Model 
saver = tf.train.Saver() 


save_path = saver.save(sess, model_save_path) 


输出 如 下 。 












































Epoch number94, CIFAR-10 Batch Number 5: Valid Loss: 0.316593 
Valid accuracy: 0.925000 
Epoch number95, CIFAR-10 Batch Number 1: Valid Loss: 0.285429 
Valid accuracy: 0.925000 
Epoch number95, CIFAR-10 Batch Number 2: Valid Loss: 0.347411 
Valid accuracy: 0.825000 
Epoch number95, CIFAR-10 Batch Number 3: Valid Loss: 0.232483 
Valid accuracy: 0.950000 
Epoch number95, CIFAR-10 Batch Number 4: Valid Loss: 0.294707 
Valid accuracy: 0.900000 
Epoch number95, CIFAR-10 Batch Number 5: Valid Loss: 0.299490 
Valid accuracy: 0.975000 
Epoch number96, CIFAR-10 Batch Number 1: Valid Loss: 0.302191 
Valid accuracy: 0.950000 
Epoch number96, CIFAR-10 Batch Number 2: Valid Loss: 0.347043 
Valid accuracy: 0.750000 
Epoch number96, CIFAR-10 Batch Number 3: Valid Loss: 0.252851 
Valid accuracy: 0.875000 
Epoch number96, CIFAR-10 Batch Number 4: Valid Loss: 0.291433 
Valid accuracy: 0.950000 
Epoch number96, CIFAR-10 Batch Number 5: Valid Loss: 0.286192 
Valid accuracy: 0.950000 
Epoch number97, CIFAR-10 Batch Number 1: Valid Loss: 0.277105 
Valid accuracy: 0.950000 
Epoch number97, CIFAR-10 Batch Number 2: Valid Loss: 0.305842 
Valid accuracy: 0.850000 
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Epoch number97, CIFAR-10 Batch Number 3: Valid Loss: 0.215272 

Valid accuracy: 0.950000 

Epoch number97, CIFAR-10 Batch Number 4: Valid Loss: 0.313761 

Valid accuracy: 0.925000 

Epoch number97, CIFAR-10 Batch Number 5: Valid Loss: 0.313503 

Valid accuracy: 0.925000 

Epoch number98, CIFAR-10 Batch Number 1: Valid Loss: 0.265828 

Valid accuracy: 0.925000 

Epoch number98, CIFAR-10 Batch Number 2: Valid Loss: 0.308948 

Valid accuracy: 0.800000 

Epoch number98, CIFAR-10 Batch Number 3: Valid Loss: 0.232083 

Valid accuracy: 0.950000 

Epoch number98, CIFAR-10 Batch Number 4: Valid Loss: 0.298826 

Valid accuracy: 0.925000 

Epoch number98, CIFAR-10 Batch Number 5: Valid Loss: 0.297230 

Valid accuracy: 0.950000 

Epoch number99, CIFAR-10 Batch Number 1: Valid Loss: 0.304203 

Valid accuracy: 0.900000 

Epoch number99, CIFAR-10 Batch Number 2: Valid Loss: 0.308775 

Valid accuracy: 0.825000 

Epoch number99, CIFAR-10 Batch Number 3: Valid Loss: 0.225072 

Valid accuracy: 0.925000 

Epoch number99, CIFAR-10 Batch Number 4: Valid Loss: 0.263737 

Valid accuracy: 0.925000 

Epoch number99, CIFAR-10 Batch Number 5: Valid Loss: 0.278601 

Valid accuracy: 0.950000 

Epoch number100, CIFAR-10 Batch Number 1: Valid Loss: 0.293509 
Valid accuracy: 0.950000 

Epoch number100, CIFAR-10 Batch Number 2: Valid Loss: 0.303817 
Valid accuracy: 0.875000 

Epoch number100, CIFAR-10 Batch Number 3: Valid Loss: 0.244428 
Valid accuracy: 0.900000 

Epoch number100, CIFAR-10 Batch Number 4: Valid Loss: 0.280712 
Valid accuracy: 0.925000 

Epoch number100, CIFAR-10 Batch Number 5: Valid Loss: 0.278625 
Valid accuracy: 0.950000 


8.2.6 ”测试 模型 


现在 根据 CIFAR-10 数据 集中 的 测试 集 部 分 来 测试 训练 好 的 模型 。 首 先 ， 定 义 一 个 
辅助 函数 ， 该 函数 有 助 于 可 视 化 一 些 样本 图 像 及 其 对 应 的 真实 标签 。 
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#A helper function to visualize some samples and their corresponding 
predictions 
def display samples predictions (input features, target labels, 


samples predictions): 
num classes = 10 


cifarl0 class names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 


'dog', 'frog', 'horse', 'ship', 'truck'] 


label binarizer = LabelBinarizer() 
label binarizer.fit(range (num classes)) 


label inds = label binarizer.inverse transform(np.array(target labels)) 


fig, axies = plt.subplots(nrows-4, ncols-2) 
fig.tight layout () 
fig.suptitle('Softmax Predictions', fontsize-20, y-1.1) 


num predictions = 4 
margin - 0.05 
ind = np.arange (num predictions) 


width = (1. - 2. * margin) / num predictions 


for image ind, (feature, label ind, prediction indicies, prediction values) 
in enumerate (zip (input features, label inds, samples predictions.indices, 

samples predictions.values)): 

prediction names = [cifarl0 class names[pred i] for pred i in 

prediction indicies] 


correct name = cifarl10 class names[label ind] 


axies[image ind][0].imshow(feature) 
axies[image ind][0].set title(correct name) 


axies[image ind][0].set axis off() 


axies[image ind] ].barh(ind + margin, prediction values[::-1], width) 
axies[image ind][1].set yticks(ind + margin) 


axies[image ind][1].set yticklabels (prediction names[::-1] 








axies[image ind][1].set xticks([0, 0.5, 1.0] 


现在 ， 还 原 训 练 好 的 模型 ， 并 在 测试 集 上 测试 它 。 
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test batch size = 64 
save model path = './cifar-10 classification' 
Number of images to visualize 


num samples - 4 


Number of top predictions 


top n predictions = 4 





Defining a helper function for testing the trained model 





def test classification model(): 


input test features, target test labels - 
pickle.load(open('preprocess test.p', mode-'rb')) 
loaded graph = tf.Graph() 


with tf.Session(graph-loaded graph) as sess: 


# loading the trained model 
model = tf.train.import meta graph(save model path + '.meta') 
model.restore(sess, save model path) 


# Getting some input and output Tensors from loaded model 

model input values = loaded graph.get tensor by name('input images:0') 
model target - loaded graph.get tensor by name('input images target:0') 
model keep prob = loaded graph.get tensor by name('keep prob:0') 


model logits = loaded graph.get tensor by name('logits:0' 








model accuracy = loaded graph.get tensor by name('model accuracy:0') 


# Testing the trained model on the test set batches 
test batch accuracy total = 0 
test batch count = 0 


for input test feature batch, input test label batch in 
batch split features labels(input test features, target test labels, 
test batch size): 

test batch accuracy total += sess.run( 

model accuracy, 

feed dict-í(model input values: input test feature batch, model target: 
input test label batch, model keep prob: 1.0}) 

test batch count += 1 


print('Test set accuracy: 


()JAn'.format(test batch accuracy total/test batch count)) 
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# print some random images and their corresponding predictions from the 
test set results 

random input test features, random test target labels = 
tuple(zip(*random.sample(list(zip(input test features, 


target test labels)), num samples))) 


random test predictions = sess.run( 
tf.nn.top k(tf.nn.softmax(model logits), top n predictions), 
feed dict-(model input values: random input test features, model target: 


random test target labels, model keep prob: 1.0} 


display samples predictions (random input test features, 


random test target labels, random test predictions) 


Calling the function 


test classification model () 


输出 如 下 。 


NFO:tensorflow:Restoring parameters from ./cifar-10_classification 
Test set accuracy: 0.7540007961783439 


输出 结果 如 图 8.3 所 示 。 
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图 8.3 程序 输出 结果 


























接着 再 看 可 视 化 的 另外 一 个 例子 ， 其 中 的 误差 如 图 8.4 所 示 。 
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图 8.4 ”误差 








现在 ， 模 型 的 测试 准确 率 大 约 为 73%， 这 对 于 本 节 使 用 的 这 种 简单 的 CNN 来 说 不 算 
太 坏 。 








8.3 iR 








本 章 展示 了 如 何 建立 一 个 CNN 来 对 CIFAR-10 数据 集中 的 图 像 进行 分 类 。 该 模型 在 
测试 集 上 的 分 类 准确 率 为 79% 一 80%。 本 章 还 绘制 了 卷 积 层 的 输出 ， 但 是 从 中 很 难看 出 
神经 网 络 是 如 何 识别 输入 图 像 并 对 它们 进行 分 类 的 , 这 可 能 需要 用 到 更 好 的 可 视 化 技术 。 

接 下 来 ， 本 书 将 会 介绍 现代 令 人 兴奋 的 深度 学 习 实 践 之 一 一 一 迁移 学 习 。 迁 移 学 习 
允许 程序 在 只 有 小 型 数据 集 时 使 用 数据 贪 梦 的 深度 学 习 架 构 。 
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“个 人 如 何 从 一 个 环境 中 转移 到 有 具有 相似 特征 的 另 一 个 环境 ? ” 
— —E. L. Thorndike, R. S. Woodworth (1991) 

迁移 学 习 (transfer learning; TL) 是 数据 科学 中 研究 的 一 个 问题 ， 主 要 涉及 在 解决 
特定 任务 时 不 断 获取 知识 ， 并 使 用 这 些 已 获得 的 知识 来 解决 另 一 个 不 同 但 相似 的 任务 。 
本 章 将 展示 数据 科学 领域 中 使 用 TL 的 现代 实践 和 共同 主题 之 一 。 这 里 的 想法 是 在 处 理 
具有 较 小 数据 集 的 领域 中 的 问题 时 ， 如 何 从 具有 非常 大 的 数据 集 的 领域 中 来 获得 帮助 。 
最 后 ,本章 将 重新 探讨 CIFAR-10 目标 检测 示例 ， 并 尝试 使 用 TL 来 缩短 训练 时 间 和 减 小 
性 能 误差 。 
本 章 主 要 包括 以 下 两 个 主题 。 

e TEFA. 


@ CIFAR-10 目标 检测 回顾 。 











































































































9.1 迁移 学 习 


深度 学 习 架 构 对 于 数据 是 仿 禁 的 ， 在 训练 集中 有 一 些 样本 不 能 够 充分 发 挥 作用 。TL 
通过 将 从 解决 大 数据 集 任务 中 学 习 和 获得 的 知识 /表示 迁移 到 另 一 个 具有 小 数据 集 的 不 
同 但 相似 的 任务 上 来 解决 这 个 问题 。 
TL 不 但 适用 于 小 型 数据 集 的 情况 ,而 且 可 以 加 速 训练 过 程 。 从 头 开始 训练 大 型 
的 深度 学 习 架 构 通常 是 非常 慢 的 ， 因 为 可 能 需要 学 习 数 百 万 的 权重 参数 。 相 反 ， 我 
门 可 以 考虑 使 用 TL 方法 ， 将 从 类 似 问 题 中 学 习 到 的 权重 微调 到 自己 尝试 解决 的 问 






























































































































































题 上 来 。 


9.1.1 迁移 学 习 背 后 的 直觉 


这 里 通过 使 用 教师 -学 生来 类 比 TL 背后 的 直觉 。 教 师 在 他 所 熟悉 的 领域 中 有 多 年 的 
教学 经 验 ， 学 生 从 教师 讲授 的 课程 中 获得 对 该 课程 的 一 个 简单 理解 。 因 此 可 以 认为 教师 
正在 以 简明 扼要 的 方式 向 学 生 传 授 着 知识 。 

同样 ， 教 师 与 学 生 的 类 比 通常 可 以 应 用 于 通过 深度 学 习 或 者 神经 网 络 来 传递 知识 的 
情境 中 。 模 型 学 习 到 数据 的 一 些 特征 ， 这 些 特征 由 网 络 的 权重 来 表示 。 这 些 学 习 到 的 / 
特征 〈 权 重 ) 能 够 转移 到 另 一 个 不 同 但 是 相似 的 任务 中 。 为 了 使 深度 学 习 架 构 收敛 ， 将 
学 习 到 的 权重 转移 到 另 一 个 任务 的 过 程 将 减少 程序 对 大 型 数据 集 的 需求 ， 并 且 与 从 头 开 
台 训练 模型 相 比 ， 它 还 将 缩短 模型 适应 于 新 数据 集 所 需 的 时 间 。 

深度 学 习 如 今 广泛 应 用 , 但 通常 大 多 数 人 在 训练 深度 学 习 架 构 时 使 用 TL。 很 少 有 人 
从 头 开 始 训练 深度 学 习 架 构 ， 因 为 大 多 数 时 候 很 难 有 足够 大 的 数据 集 来 使 深度 学 习 模型 
收敛 。 因 此 ， 在 诸如 ImageNet( 该 数据 集 拥有 120 万 幅 图 像 ) 这 样 的 大 型 数据 集 上 使 用 
预 训练 的 模型 是 很 常见 的 ， 并 将 该 训练 模型 应 用 于 新 的 任务 。 可 以 使 用 预 训 练 模型 的 权 
重 参 数 作为 特征 提取 器 ， 或 者 可 以 使 用 它 来 初始 化 自己 的 模型 架构 ， 然 后 针对 新 任务 对 
它们 进行 微调 。 使 用 TL 的 情况 主要 有 3 种 ， 有 具体 如 下 。 

@ 使 用 卷 积 网 络 作为 固定 的 特征 提取 器 : 在 这 种 情况 下 ， 需 使 用 在 诸如 ImageNet 
等 大 型 数据 集 上 预 训练 的 卷 积 模型 ， 然 后 让 它 与 自己 的 问题 相 适应 。 例 如 ， 
ImageNet 上 的 预 训 练 卷 积 模型 有 一 个 全 连接 层 ， 它 输出 的 ImageNet 中 1000 类 
物体 的 得 分 。 所 以 需要 删除 该 全 连接 层 ， 因 为 这 里 不 会 再 关心 ImageNet 的 分 类 。 
然后 ， 将 所 有 其 他 层 〈 即 全 连接 层 之 前 所 有 的 层 ) 视 为 一 个 特征 提取 器 。 一 旦 使 
用 这 个 预 训 练 模型 提取 出 了 特征 ， 就 可 以 将 这 些 特 征 提供 给 任何 的 线性 分 类 器 ， 
如 softmax 分 类 器 ， 甚 至 线性 SVM 等 。 

@ 微调 卷 积 神经 网 络 : 第 二 种 情况 也 涉及 第 一 种 情况 ， 但 是 需要 额外 的 代价 来 
使 用 反 向 传播 算法 在 新 任务 上 微调 预 训 练 权重 参数 。 通 常 ， 我 们 都 会 保持 大 
部 分 层 固定 不 变 ， 只 微调 网 络 的 最 后 儿 层 。 调 整整 个 网 络 或 者 网 络 的 大 部 分 
层 可 能 会 导致 过 拟 合 。 因 此 ， 我 们 可 能 只 对 调整 那些 与 图 像 语 义 级 特征 相关 
联 的 层 感 兴趣 。 保 持 前 面 层 固定 不 变 背 后 的 道理 就 是 它们 包含 大 多 数 图 像 任 
务 中 常见 的 通用 或 低级 特征 ， 如 角落 、 边 缘 等 。 如 果 要 引入 预 训练 模型 的 原 
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始 数据 集中 不 存在 的 新 的 类 别 ， 那 么 微调 网 络 的 高 级 层 或 顶端 层 是 非常 有 用 


的 ， 见 图 





9.1。 








输入 A 


输入 B 





迁移 
AnB: 固定 权重 
4 任务 B 
a = 


< ASHES 

































































N H 任务 A 


AnB': 微调 




















9.1 针对 新 任务 微调 预 训练 CNN 模型 











e 预 训 练 模型 : 第 三 种 普遍 的 情况 就 是 下 载 网 上 提供 的 模型 检查 点 。 如 果 没 有 很 强 

















的 计算 能 


人 发 布 的 检查 点 来 初始 化 模型 ， 然 后 ; 





能 够 从 头 开始 训练 模型 ,那么 可 以 选择 这 

















9.1.2 ”传统 机 器 学 习 与 迁移 学 习 之 间 的 不 同 

















正如 读者 所 见 ， 应 























些 条 件 下 ， 使 
NE TL 的 条 件 如 下 。 























HT TL. Øl 








e 与 传统 机 器 学 习 不 同 ， 


相似 。 


e 如 果 训 练 样本 较 少 或 者 没有 必 备 的 计 





源 、 














目标 任务 或 域 不 必 来 





























能 力 ， 也 可 


行 微调 即 可 。 





























方式 , 这样 只 需要 使 用 别 








机 器 学 习 的 传统 方式 和 涉及 TL 的 机 器 学 习 之 间 存 在 明显 的 差 
5r. WIA 9.2 所 示 。 传 统 的 机 器 学 习 不 会 将 任何 知识 或 表示 转移 到 任何 其 他 任务 中 ， 但 
在 TL 中 不 是 这 样 的 。 有 时候 ， 人 们 错误 地 运 月 
] TL 能 获得 最 大 收益 。 








此 本 节 会 给 出 一 些 条 件 ， 在 这 








自 相 同 的 分 布 ， 但 是 它们 必须 





以 使 用 TL. 
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迁移 学 习 


传统 机 器 学 习 (ML) 迁移 学 习 
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EJ pu 
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v 
fa ÄT 
学 习 学 习 
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图 9.2 ”传统 机 器 学 习 与 使 用 TL 的 机 器 学 习 的 对 比 








9.2 CIFAR-10 目标 检测 一 一 回顾 


在 前 面 的 内 容 中 ， 我 们 在 CIFAR-10 数据 集 上 训练 了 一 个 简单 的 卷 积 神经 网 络 





(CNN) 模型 。 本 节 将 会 使 用 预 训练 模型 作为 特 生 
连接 层 ， 然 后 将 这 些 提取 的 特征 或 传递 的 值 提供 给 softmax 层 。 
在 该 实现 中 ， 预 训练 模型 采用 的 是 inception 模型 ， 它 将 在 ImageNet 上 进行 预 训练 。 
但 是 请 记 住 ， 该 实现 是 建立 在 引入 CNN 的 前 两 节 的 基础 上 的 。 
























































9.2.1 解决 方案 大 纲 


同样 地 ,这 里 将 会 蔡 换 预 训练 的 inception 模型 中 最 后 的 全 连接 
模型 的 其 余部 分 作为 特征 提取 器 。 因 此 ， 首 # 
中 提取 出 特征 ， 然 后 输出 所 谓 的 迁移 值 。 


在 从 inception 模型 中 得 到 了 已 提取 特征 的 迁移 值 之 后 , 可 能 需 要 将 它 保存 在 桌面 上 ， 
因为 如 果 在 运行 中 这 样 做 是 需要 花费 时 间 的 ， 所 以 将 它 保存 在 桌面 上 可 以 节省 时 












































TensorFlow 教程 中 使 用 的 是 术语 瓶颈 
同名 称 而 已 。 




























































































提取 器 ， 同 时 移 除 预 训练 模型 














B, 然后 使 有 
E 给 inception 模型 提供 原始 图 像 ， 它 将 会 从 

















值 ， 而 不 是 迁移 值 ， 但 是 这 也 只 是 同 
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H inception 
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在 得 到 迁移 值 或 者 从 桌面 加 载 它 们 之 后 ， 可 以 将 它们 提供 给 任何 为 新 任务 定制 的 线 


生 分 类 器 。 这 里 ,我 们 会 把 提取 到 的 迁移 值 提 供给 另外 一 个 神经 网 络 ,然后 训练 CIFAR-10 
数据 集中 新 的 类 别 。 


图 9.3 所 示 为 后 续 将 会 遵循 的 一 般 解 决 方案 大 纲 。 





——R 











inception v3 模 型 






D Somas 全 连接 层 

softmax 层 — 类别 编号 /名 称 
O Airplane 
1 Automobile 





8 Ship 
9 Truck 














(1024 个 特征 ) 《10 个 特征 ) 
图 9.3 使 用 TL 在 CIFAR-10 数据 集 上 完成 目标 识别 任务 的 解决 方案 大 纲 


9.2.2 ”加 载 和 探索 CIFAR-10 数据 集 
本 节 从 导入 此 实现 所 需 的 软件 包 开 始 。 



































$matplotlib inline 

import matplotlib.pyplot as plt 
import tensorflow as tf 

import numpy as np 

import time 

from datetime import timedelta 


import os 


# Importing a helper module for the functions of the Inception model. 
import inception 


























接 下 来 ， 加 载 男 一 个 辅助 脚本 ， 它 可 以 用 来 下 载 处 理 过 的 CIFAR-10 数据 集 。 
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import cifar10 
#importing number of classes of CIFAR-10 


from cifarl0 import num classes 


如 果 还 没有 这 样 做 过 ， 那 么 需要 设置 CIFAR-10 数据 集 的 路 径 。cifar-10.py 脚本 将 使 
用 该 路 径 来 保存 数据 集 。 


cifarl0.data path = "data/CIFAR-10/" 























The CIFAR-10 dataset is about 170 MB, the next line checks if the dataset 
is already downloaded if not it downloads the dataset and store in the 


previous data path: 


cifarl0.maybe download and extract«/span»() 


输出 如 下 。 


- Download progress: 100.0% 
Download finished. Extracting files. 


Done. 


下 面 查看 CIFAR-10 数据 集中 有 哪些 类 别 。 



































#Loading the class names of CIFAR-10 dataset 
class names = cifarl0.load_class_names () 


class names 
输出 如 下 。 


Loading data: data/CIFAR-10/cifar-10-batches-py/batches.meta 
['airplane', 
'automobile', 
Third"; 
‘eat ">, 
'deer', 
'dog', 
PETOG: y 
"horse"; 
Uship 
'truck'] 


Load the training-set. 


以 上 代码 会 返回 图 像 、 整 型 的 类 别 数字 和 称 为 标签 的 独 热 编码 数组 表示 的 类 别 数 字 。 
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training images, training cls integers, trainig one hot labels = 


cifarl0.1oad training data() 
输出 如 下 。 


Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 1 
Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 2 
Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 3 
Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 4 
Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 5 
Load the test-5et. 


下 面 对 测 试 集 做 同样 的 操作 ， 方 法 是 加 载 图 像 数据 和 它们 对 应 的 带 有 独 热 编码 的 目 
标 类 别 的 整数 表示 方式 。 















































#Loading the test images, their class integer, and their corresponding one-hot 
encoding 

testing_images, testing_cls_integers, testing_one_hot_labels = 
cifarl0.load_test_data() 


输出 如 下 。 


Loading data: data/CIFAR-10/cifar-10-batches-py/test_batch 


然后 ， 查 看 CIFAR-10 数据 集中 训练 集 和 测试 集 的 分 布 。 














print("-Number of images in the training 
set:\t\t{}".format (len (training images))) 


print("-Number of images in the testing 


set:\t\t{}".format (len (testing images))) 

^ 

输出 如 下 。 

-Number of images in the training set: 50000 
-Number of images in the testing set: 10000 




















接 下 来 ， 定 义 一 些 辅助 函数 用 于 研究 数据 集 。 下 面 的 辅助 函数 在 网 格 中 绘制 了 9 幅 
像 。 















































DS 








def plot imgs(imgs, true class, predicted class-None): 


assert len(imgs) -- len(true class) 


一 202 2h 


# Creating a placeholders for 9 subplots 
fig, axes = plt.subplots(3, 3) 
# Adjustting spacing. 
if predicted_class is None: 
hspace = 0.3 
else: 
hspace = 0.6 
fig.subplots_adjust (hspace=hspace, wspace=0.3) 


for i, ax in enumerate (axes.flat): 
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# There may be less than 9 images, ensure it doesn't crash. 


if i < len(imgs): 
# Plot image. 
ax.imshow(imgs[i], 


interpolation='nearest') 


# Get the actual name of the true class from the class_names array 


true class name = class names[true class[il] 


# Showing labels for the predicted and true classes 


if predicted class is None: 


xlabel = "True: {0}".format (true class name) 


else: 


# Name of the predicted class. 


predicted class name = class names[predicted class[i]] 


xlabel = "True: {0}\nPred: (1)".format(true class name, 


predicted class name) 


ax.set xlabel (xlabel) 
# Remove ticks from the plot. 
ax.set xticks([]) 
ax.set yticks([]) 
plt.show() 


接 下 来 ， 继 续 观 察 并 可 视 化 测试 集中 的 一 些 图 像 及 其 对 应 的 实际 类 别 。 





# get the first 9 images in the test set 


imgs = testing_images[0:9] 


203 RI 


第 9 章 目标 检测 一 一 CNN 迁移 学 习 


Get the integer representation of the true class. 


true class = testing_cls_integers[0:9] 


Plotting the images 


plot imgs (imgs=imgs, true class=true class) 


输出 如 图 9.4 所 示 。 














True: ship 














True: airplane True: pem True: frog 
f E 
à 
True: automobile True: frog True: cat 








图 9.4 测试 集中 的 前 9 TA 


9.2.3 inception 模型 迁移 值 


正如 前 面 提 到 的 ， 这 里 会 用 到 在 InageNet 数据 集 上 预 训练 的 inception 模型 。 所 以 ， 
需要 从 网 上 下 载 预 训练 模型 。 


现在 ， 开 始 为 inception 模型 定义 data dir. 





S 
5s 


























inception.data dir = 'inception/' 


预 训练 的 inception 模型 的 权重 参数 大 概 为 85MB。 如 果 在 前 面 定义 的 data dir 路 径 下 找 
不 到 该 权重 ， 那 么 如 下 代码 将 会 重新 下 载 它 。 


inception.maybe download () 














"n 


Downloading Inception v3 Model ... 


- Download progress: 100$ 


接 下 来 ， 加 载 inception 模型 ， 然 后 将 它 作为 CIFAR-10 图 像 的 特征 提取 器 。 


# Loading the inception model so that we can inialized it with the pre-trained 





weights and customize for our model 


inception model = inception.Inception () 


$$ 4j 
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如 前 所 述 ， 计 算 CIFAR-10 数据 集 的 迁移 值 将 会 花费 一 定时 间 ， 所 以 需要 将 它们 组 
存 下 来 以 备 后 续 使 用 。 幸 运 的 是 ，inception 模块 中 有 一 个 辅助 函数 可 以 帮助 我 们 做 到 这 


4v. Oo 



































from inception import transfer values cache 


接 下 来 ， 需 要 为 缓存 的 训练 和 测试 文件 设置 文件 路 径 。 








file path train = os.path.join(cifarl0.data_path, 
'inception cifarl0 train.pkl') 

file path test = os.path.join(cifarl0.data path, 
) 
print("Processing Inception transfer-values for the training images of 
Exfate-l o") 


'inception cifarl0 test.pkl 





First we need to scale the imgs to fit the Inception model requirements 
as it requires all pixels to be from 0 to 255, 

while our training examples of the CIFAR-10 pixels are between 0.0 and 

.0 


imgs scaled = training images * 255.0 











Checking if the transfer-values for our training images are already 
calculated and loading them, if not calculate and save them. 
transfer values training - 
transfer values cache(cache path-file path train, 
images-imgs scaled, 
model-inception model) 
print("Processing Inception transfer-values for the testing images of 
Citar-10 e") 
# First we need to scale the imgs to fit the Inception model requirements 
as it requires all pixels to be from 0 to 255, 
# while our training examples of the CIFAR-10 pixels are between 0.0 and 
1.0 
imgs scaled = testing images * 255.0 
# Checking if the transfer-values for our training images are already 
calculated and loading them, if not calcaulate and save them. 
transfer values testing - transfer values cache (cache path-file path test, 
images-imgs scaled, 


model-inception model) 


前 面 提 到 了 ， 在 CIFAR-10 数据 集 的 训练 集中 有 50000 张 图 像 。 下 
迁移 值 的 形状 。 此 训练 集中 每 幅 图 像 的 迁移 值 形状 都 应 该 是 2048。 
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mh 
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transfer values training.shape 


输出 如 下 。 


(50000, 2048) 


这 里 需要 对 测试 集 做 同样 的 操作 。 





transfer values testing.shape 


输出 如 下 。 


(10000, 2048) 


为 了 直观 地 理解 迁移 值 的 形状 ， 这 里 将 会 定义 一 个 辅助 函数 ， 该 函数 可 以 绘制 训练 
集 或 者 测试 集中 某 幅 特定 图 像 的 迁移 值 。 
























































def plot_transferValues (ind): 
print ("Original input image:") 
# Plot the image at index ind of the test set. 
plt.imshow(testing images[ind], interpolation-'nearest') 


plt.show() 


print("Transfer values using Inception model:") 
# Visualize the transfer values as an image. 
transferValues img = transfer values testing[ind] 


transferValues img = transferValues img.reshape((32, 64)) 


# Plotting the transfer values image. 
plt.imshow(transferValues img, interpolation-'nearest', cmap-'Reds') 
plt.show() 

plot transferValues (i-16) 





输入 图 像 如 图 9.5 所 示 。 
使 用 inception 模型 计算 该 图 像 的 迁移 值 ， 如 图 9.6 所 示 。 
































plot transferValues(i-17) 





输入 图 像 如 图 9.7 所 示 。 
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图 9.5 输入 图 像 图 9.6 图 9.5 中 输入 图 像 的 迁移 值 


























使 用 inception 模型 计算 该 图 像 的 迁移 值 ， 结 果 如 图 9.8 所 示 。 








ET 




















图 9.7 输入 图 像 图 9.8 图 9.7 中 输入 图 像 的 迁移 值 


9.2.4 ”迁移 值 分 析 


本 节 将 会 对 之 前 从 训练 图 像 中 获得 的 迁移 值 进行 一 些 分 析 。 做 这 些 分 析 的 目的 是 判 
断 这 些 迁 移 值 是 否 已 经 足够 用 于 对 CIFAR-10 数据 集中 的 图 像 进行 分 类 。 

对 于 每 一 幅 输 入 图 像 获 取 了 维度 是 2048 的 迁移 值 .为 了 绘制 出 这 些 迁 移 值 并 对 它们 
做 进一步 分 析 ， 可 以 使 用 降 维 法 ， 如 scikit-learn 包 中 的 主 成 分 分 析 (Principal Component 
Analysis, PCA) 方法 。 这 里 将 迁移 值 从 2048 维 降低 到 2 维 以 便 对 它们 进行 可 视 化 ， 并 
查看 它们 是 否 是 区 分 CIFAR-10 数据 集中 不 同类 别 的 好 的 特征 。 






































































































































from sklearn.decomposition import PCA 


_ A .A 广 
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接 下 来 ， 需 要 创建 一 个 PCA 对 象 ， 其 中 的 主 成 分 数目 为 2。 





pca_obj = PCA(n_components=2) 


因为 将 迁移 值 从 2048 维 降低 到 2 维 需要 花费 大 量 时 间 ， 所 以 这 里 将 从 具有 迁移 值 的 
5000 幅 图 像 中 抽出 3000 幅 图 像 ， 并 作为 一 个 子 集 。 








> 












































subset_transferValues = transfer_values_training[0:3000] 


还 需要 获取 这 些 图 像 的 类 别 数字 。 





cls_integers = testing_cls_integers[0:3000] 


通过 输出 迁移 值 的 形状 ， 可 以 再 次 检查 抽出 的 子 集 是 




















E 确 。 








I 
= 








subset_transferValues.shape 


输出 如 下 。 


(3000, 2048) 


接 下 来 ， 使 用 前 面 定义 的 PCA 对 象 来 将 迁移 值 从 2048 维 降低 到 2 维 。 








reduced_transferValues = pca obj.fit transform(subset transferValues) 


现在 ， 查 看 PCA Reset REA 80 H 





CE 
o 











reduced_transferValues.shape 


输出 如 下 。 


(3000, 2) 


在 将 迁移 值 的 维度 降低 到 只 有 2 之 后 ， 再 绘 于 














= 
r 


出 这 些 值 。 














#Importing the color map for plotting each class with different color. 





import matplotlib.cm as color_map 
def plot reduced transferValues(transferValues, cls integers): 
# Create a color-map with a different color for each class. 


c map = color map.rainbow(np.linspace(0.0, 1.0, num classes)) 


# Getting the color for each sample. 


— 208 # 


colors = c_map[cls_integers] 


# Getting the x and y values. 
x_val = transferValues[:, 0] 


y_val = transferValues[:, 1] 


# Plot the transfer values in a scatter plot 
plt.scatter(x val, y val, color=colors) 


plt.show() 
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下 面 我 们 将 绘制 来 自 训练 集 的 子 集 降 维 之 后 的 迁移 值 。 在 CIFAR-10 数据 集中 有 10 


个 类 别 ， 


据 相 应 的 类 别 进行 了 分 组 。 不 同 组 之 间 存 在 




















离 迁 移 值 。 




















因此 将 使 用 不 同 的 颜色 来 绘制 相应 的 迁移 值 。 从 图 9.9 中 可 以 看 出 ， 迁 移 值 根 
Bee ALA PCA 降 维 过 程 无 法 完全 正确 


地 分 





plot reduced transferValues (reduced transferValues, cls integers) 


还 可 以 使 月 


























图 9.9 使 用 PCA 降 维 后 的 迁移 值 


























from sklearn.manifold import TSNE 


同样 地 ， 还 需要 对 2048 维 的 迁移 值 进行 降 维 ， 但 是 这 里 降 到 50 维 ， 而 不 是 2 维 

















pca_obj = PCA(n_components=50) 


日 名 为 t-SNE 的 不 同 降 维 法 来 对 迁移 值 进行 进一步 分 析 。 





transferValues 50d = pca obj.fit transform(subset transferValues) 


BERR, KING AEEA, UL PCA 处 理 后 的 输出 作为 输入 。 








4 209 # x 


第 9 章 目标 检测 一 一 CNN 迁移 学 习 


tsne obj = TSNE(n components-2) 








最 后 ， 将 t-SNE 方法 应 用 于 使 用 PCA 方法 获得 的 降 维 后 的 值 。 




















reduced transferValues = tsne obj.fit transform(transferValues 50d) 














同时 再 次 检查 降 维 后 的 值 是 否 具 有 正确 的 形状 。 























reduced_transferValues.shape 


输出 如 下 。 


(3000, 2) 


现在 绘制 t-SNE 方法 降 维 之 后 的 迁移 值 。 如 图 9.10 所 示 , t-SNE 方法 能 够 比 PCA Ù 








法 更 好 地 分 离 不 同 组 的 迁移 值 。 

















1 1 
-20 一 15 =10 -5 0 5 
































图 9.10 使 用 t-SNE 方法 降 维 得 到 的 迁移 值 


从 这 个 分 析 中 得 出 的 结论 是 : 通过 将 输入 图 像 输 入 预 训 练 的 inception 模型 中 ， 提 取 
出 来 的 迁移 值 能 够 用 来 将 训练 图 像 分 成 10 个 类 。 这 个 分 离 不 会 100% 正 确 ， 因 为 不 同类 
别 之 间 存 在 小 的 重 登 ， 但 是 可 以 通过 对 预 训练 模型 进行 一 些微 调 来 消除 这 种 重 倒 。 






































plot_reduced_transferValues (reduced_transferValues, cls_integers) 


现在 有 了 从 训练 图 像 中 提取 出 来 的 迁移 值 ， 并 且 





知 


1E 














这 些 值 能 够 在 某 种 程度 上 区 分 











CIFAR-10 数据 集中 不 同 的 类 别 。 接 下 来 ， 需 要 构建 一 个 线性 分 类 器 ， 并 将 这 些 迁 移 值 输 


入 给 线性 分 类 器 ， 以 便 进 行 实 际 的 分 类 。 
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9.2.5 ”模型 构建 与 训练 


首先 ， 指 定 将 会 被 输入 神经 网 络 模型 中 的 输入 占 位 符 变 量 。 第 一 个 输入 变量 LG 
提取 的 迁移 值 ) 的 形状 为 [None, transfer len]。 第 二 个 占 位 符 变 量 将 以 独 热 向 量 的 格式 保 
存 训练 集 的 实际 类 别 标签 。 



































transferValues arrLength = inception model.transfer len 

input values = tf.placeholder(tf.float32, shape-[None, 
transferValues arrLength], name-'input values') 

y actual = tf.placeholder(tf.float32, shape-[None, num classes], 


name-'y actual') 


还 可 以 定义 另 一 个 占 位 符 变 量 来 获取 每 一 个 类 别 的 相应 整数 值 (1 一 10)。 








y_actual_cls = tf.argmax(y_actual, axis=1) 


接 下 来 , 需要 构建 实际 的 分 类 神经 网 络 , 它 将 接受 这 些 输入 占 位 符 并 生成 预测 类 别 。 



































def new_weights (shape): 
return tf.Variable(tf.truncated_normal (shape, stddev=0.05) ) 


def new biases (length): 
return tf.Variable(tf.constant(0.05, shape-[length])) 








def new fc layer(input, # The previous layer. 
num inputs, # Num. inputs from prev. layer. 
num outputs, # Num. outputs. 
use relu-True): # Use Rectified Linear Unit (ReLU)? 


# Create new weights and biases. 
weights = new weights (shape-[num inputs, num outputs]) 
biases = new biases (length-num outputs) 


# Calculate the layer as the matrix multiplication of 
# the input and weights, and then add the bias-values. 
layer = tf.matmul(input, weights) + biases 

# Use ReLU? 

if use relu: 


layer = tf.nn.relu(layer) 


return layer 
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# First fully-connected layer. 

layer_fcl = new fc layer (input=input values, 
num inputs=2048, 
num_outputs=1024, 


use_relu=True) 


# Second fully-connected layer. 

layer fc2 = new_fc_layer(input=layer_fcl, 
num_inputs=1024, 
num_outputs=num_classes, 


use_relu=False) 


# Predicted class-label. 


y predicted = tf.nn.softmax(layer fc2) 


# Cross-entropy for the classification of each image. 
cross entropy = V 
tf.nn.softmax cross entropy with logits(logits-layer fc2, 


labels-y actual) 


# Loss aka. cost-measure. 
# This is the scalar value that must be minimized. 


loss = tf.reduce mean(cross entropy) 


然后 ， 需 要 定义 分 类 器 训练 期 间 使 用 的 优化 标准 。 在 此 实现 中 ， 我 们 将 会 使 用 
AdamOptimizer。 分 类 器 的 输出 将 是 含有 10 个 概率 分 数 的 数组 ,这些 数 组 对 应 CIFAR-10 
数据 集中 的 类 别 数 量 。 接 下 来 ,将 会 在 此 数组 上 执行 argmax 操作 ， 来 给 出 输入 样本 具有 
最 大 概率 值 的 类 别 。 






























































step = tf.Variable(initial_value=0, 
name='step', trainable=False) 
optimizer = tf.train.AdamOptimizer (learning_rate=le-4) .minimize(loss, step) 
y_predicted_cls = tf.argmax(y_predicted, axis=1) 
#compare the predicted and true classes 
correct_prediction = tf.equal(y_predicted_cls, y_actual_cls) 
#cast the boolean values to fload 


model accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32) 


接 下 来 ， 需 要 定义 一 个 实际 执行 图 计算 的 TensorFlow 会 话 ， 然 后 初始 化 此 实现 中 前 
面 定义 的 变量 。 
































uu 
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session = tf.Session() 


session.run(tf.global variables initializer () 














y 





从 含有 50000 个 图 像 的 训练 集中 随机 生成 特定 大 小 的 批量 数据 。 
因此 ， 还 需要 定义 一 个 辅助 函数 用 于 从 迁移 值 的 输入 训练 集 


























n 















































#defining the size of the train batch 


train batch size - 64 


#defining a function for randomly selecting a batch of images from the 
dataset 
def select random batch(): 

# Number of images (transfer-values) in the training-set. 


num imgs = len(transfer values training) 


# Create a random index. 
ind = np.random.choice (num imgs, 
Size-training batch size, 


replace-False) 


# Use the random index to select random x and y-values. 
# We use the transfer-values instead of images as x-values. 
x batch = transfer values training[ind] 


y batch = trainig one hot labels[ind] 


return x batch, y batch 





BERR, ra BE MPA BOR DUT SEO, EH OC a AE 








CRETE RE FOIE ER SB, FE SEP TOR EL PA 2 o 





def optimize (num iterations): 


for i in range (num iterations): 
# Selectin a random batch of images for training 
# where the transfer values of the images will be stored in 
input batch 
# and the actual labels of those batch of images will be stored in 
y actual batch 
input batch, y actual batch = select random batch() 





回顾 


在 此 实现 中 ， 我 们 将 会 使 用 随机 梯度 下 降 (SGD) 法 ， 所 以 需要 定义 一 个 函数 ， 以 


生成 一 批 随机 数据 。 


pn 
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# storing the batch in a dict with the proper names 
# such as the input placeholder variables that we define above. 
feed dict = {input values: input batch, 


y_actual: y_actual_batch} 


# Now we call the optimizer of this batch of images 
# TensorFlow will automatically feed the values of the dict we 
created above 
# to the model input placeholder variables that we defined above. 
i_global, _ = session.run([step, optimizer], 
feed dict-feed dict) 


# print the accuracy every 100 steps. 
if (i global $ 100 == 0) or (i == num iterations - 1): 
# Calculate the accuracy on the training-batch. 
batch accuracy = session.run (model accuracy, 
feed dict-feed dict) 


msg = "Step: {0:>6}, Training Accuracy: {1:>6.1%}" 


print(msg.format(i global, batch accuracy)) 


然后 ， 定 义 一 些 辅助 函数 来 显示 之 前 神经 网 络 的 结果 ， 同 时 显示 预测 结果 的 混 清 
JERE. 

















def plot_errors(cls_predicted, cls_correct): 
cls_predicted is an array of the predicted class-number for 


all images in the test-set. 


cls_correct is an array with boolean values to indicate 


whether is the model predicted the correct class or not. 


Negate the boolean array. 

incorrect = (cls_correct == False) 

Get the images from the test-set that have been 
incorrectly classified. 

incorrectly_classified_images = testing_images [incorrect] 
Get the predicted classes for those images. 


cls_predicted = cls_predicted[incorrect] 











Get the true classes for those images. 


true_class = testing_cls_integers [incorrect] 
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n = min(9, len(incorrectly classified images)) 

4 Plot the first n images. 

plot imgs(imgs-incorrectly classified images[0:n], 
true class-true class[0:n], 


predicted class-cls predicted[0:n]) 


接 下 来 ， 需 要 定义 辅助 函数 来 绘制 混淆 矩阵 。 








from sklearn.metrics import confusion_matrix 
def plot confusionMatrix(cls predicted): 


# cls predicted array of all the predicted 


# classes numbers in the test. 


# Call the confucion matrix of sklearn 
cm = confusion matrix(y true-testing cls integers, 


y pred-cls predicted) 


# Printing the confusion matrix 
for i in range (num classes): 
# Append the class-name to each line. 
class name = "({}) {}".format(i, class names[i]) 


print(cm[i, :], class name) 


# labeling each column of the confusion matrix with the class number 
cls numbers = [" ((0))".format(i) for i in range (num classes)] 


print("".join(cls numbers)) 


此 外 ， 还 要 定义 另 一 个 辅助 函数 来 在 测试 集 上 运行 训练 的 分 类 器 ， 并 衡量 训练 模型 
在 测试 集 上 的 准确 率 。 

















# Split the data-set in batches of this size to limit RAM usage. 
batch_size = 128 


def predict_class(transferValues, labels, cls_true): 
# Number of images. 


num_imgs = len(transferValues) 


# Allocate an array for the predicted classes which 


一 215 Be, 
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# will be calculated in batches and filled into this array. 


cls predicted = np.zeros (shape=num imgs, dtype=np.int) 


# Now calculate the predicted classes for the batches. 


3 


We will just iterate through all the batches. 


# There might be a more clever and Pythonic way of doing this. 


# The starting index for the next batch is denoted i. 


while i « num imgs: 
# The ending index for the next batch is denoted j. 


j = min(i + batch size, num imgs) 


# Create a feed-dict with the images and labels 
# between index i and j. 
feed dict = (input values: transferValues[i:j], 


y actual: labels[i:j]) 


# Calculate the predicted class using TensorFlow. 
cls predicted[i:j] = session.run(y predicted cils, 
feed dict-feed dict) 


# Set the start-index for the next batch to the 
# end-index of the current batch. 
isj 
# Create a boolean array whether each image is correctly classified. 


correct = [a == p for a, p in zip(cls_true, cls_predicted) ] 
return correct, cls predicted 
#Calling the above function making the predictions for the test 
def predict cls test(): 
return predict class(transferValues - transfer values test, 
labels = labels test, 
cls true = cls test) 
def classification accuracy (correct): 


# When averaging a boolean array, False means 0 and True means 1. 


# So we are calculating: number of True / len(correct) which is 


Sd 246 A 





92 CIFAR-10 目标 检测 回顾 


# the same as the classification accuracy. 


# Return the classification accuracy 
# and the number of correct classifications. 


return np.mean(correct), np.sum(correct) 


def test accuracy(show example errors-False, 


show confusion matrix-False): 


# For all the images in the test-set, 

# calculate the predicted classes and whether they are correct. 

correct, cls pred = predict class test() 

# Classification accuracypredict class test and the number of correct 
classifications. 

accuracy, num correct = classification accuracy (correct) 

# Number of images being classified. 


num images - len(correct) 


# Print the accuracy. 
msg = "Test set accuracy: {0:.1%} ((1) / (2))" 


print(msg.format(accuracy, num correct, num images)) 


# Plot some examples of mis-classifications, if desired. 
if show example errors: 
print("Example errors:") 


plot errors(cls predicted-cls pred, cls correct-correct) 


# Plot the confusion matrix, if desired. 


if show confusion matrix: 





print("Confusion Matrix:") 


plot confusionMatrix(cls predicted-cls pred) 


在 进行 任何 优化 之 前 ， 先 看 一 下 前 面 的 神经 网 络 模型 的 性 能 。 



































test accuracy (show example errors=True, 


show confusion matrix-True) 


Accuracy on Test-Set: 9.4% (939 / 10000) 


可 以 看 到 ， 神 经 网 络 模型 的 性 能 很 差 ， 但 是 在 根据 我 们 之 前 定义 的 优化 标准 进行 一 
些 优化 之 后 ， 它 将 会 变 得 好 一 些 。 接 下 来 将 会 运行 优化 器 进行 10000 次 迭代 ， 并 在 此 之 


























- 
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后 再 次 测试 模型 准确 率 。 





spj 





迁移 学 习 


optimize (num iterations=10000) 


test accuracy (show example errors=True, 


Accuracy on Test-Se 


Example errors: 





t: 90,7 


show confusion matrix-True) 


a 
© 


(9069 / 10000) 


结果 输出 如 图 9.11 和 以 下 代码 所 示 。 











True: ship 
Pred: frog 


> 
» 
æ 


True: horse 
Pred: cat 


S 


True: deer 
Pred: frog 








True: frog 
Pred: bird 





^ 
Fa 





True: automobile 


Pred: truck 





True: cat 
Pred: deer 





True: bird 









































True: airplane True: cat 
Pred: truck Pred: dog Pred: deer 
图 9.11 一 些 测试 集中 分 类 错误 的 图 像 
Confusion Matrix: 

926 6 13 2 3 0 1 1 29 19] (0) airplane 

9 921 2 5 0 1 1 2 58] (1) automobile 
18 1 883 31 32 4 22 5 1 3] (2) bird 

7 2 19 855 23 57 24 9 2 2] (3) cat 

5 0 21 25 896 4 24 22 2 1] (4) deer 

2 0 T2 97 18 843 10 T5 1 2] (5) dog 

2 1 16 17 17 4 940 T 2 0] (6) frog 

8 0 10 19 28 14 1 914 2 4] (7) horse 

42 6 i 4 1 0 2 0 932 12] (8) ship 

6 19 2 2 1 0 T 1 9 959] (9) truck 
(0) (1) (2) (3) (4) (5) (6) (7) (8) (9) 


最 后 ， 关 闭 已 打开 的 会 话 。 


model.close() 


session.close() 
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9.3 总 结 








本 章 介 绍 了 最 广泛 使 用 的 深度 学 习 最 佳 实践 之 一 。 EKF (TL) 是 一 个 令 人 兴奋 
的 工具 ， 我 们 可 以 使 用 它 来 让 深度 学 习 架 构 从 小 数据 集中 学 习 ， 但 是 请 确保 以 正确 的 方 
式 来 使 用 。 
接 下 来 ， 我 们 将 会 介绍 一 种 在 自然 语言 处 理 中 广泛 使 用 的 深度 学 习 架 构 。 这 种 循环 
类 型 的 架构 在 大 多 数 NLP 领域 取得 了 突破 ， 如 机 器 翻译 、 语 音 识 别 、 语 言 建 模 和 情感 分 
析 等 。 
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循环 神经 网 络 (recurrent neural network, RNN) 是 一 种 深度 学 习 架 构 ， 它 广泛 地 应 





用 在 自然 语言 处 理 (natural language processing, NLP) 中 。 这 类 架构 使 得 必 


























FRAR Be 


为 当前 的 预测 提供 上 下 文 信息 ， 并 且 一 些 特别 的 架构 可 以 在 任何 输入 序列 中 处 理 长 期 


依赖 问题 。 本 章 将 展示 如 何 构 建 一 个 序列 到 序列 的 模型 ， 它 将 在 询 
作用 。 本 章 将 通过 构建 一 个 字符 级 的 语言 模型 来 解释 这 些 概 念 ， 





























何 产 生 和 原 输 入 序列 相似 的 句子 。 





本 章 将 包含 以 下 主题 。 


@ RNN 的 直观 解释 。 








@ LSTM 网 络 。 


e 语言 模型 的 实现 。 


10.1 RNN 的 直观 解释 


EJERE, KENS 








比如 ， 如 果 给 一 个 前 馈 神 经 网 络 ( FNN ) 输入 如 HELLO 这 样 的 一 




















F 多 NLP 应 用 中 发 挥 
并 让 读者 了 





解 模 型 如 


的 所 有 深度 学 习 架 构 都 无 法 记 住 它 们 之 前 接收 的 输入 信息 。 














F E 的 时 候 ， 它 并 没有 保留 
的 学 习 来 说 是 一 个 很 严重 的 问题 。 同 时 由 于 它 没 有 任何 它 之 前 读 取 的 字母 的 记忆 ， 因 此 











Hr 3L, 


PTIT, 


网 络 接收 








(或 者 说 遗忘 了 ) 它 刚刚 读 取 了 A 的 信息 。 这 对 于 














这 类 网 络 很 难 用 来 预测 下 
没有 意义 的 。 











基于 序列 

















个 字符 。 这 对 诸如 语言 建 模 、 机 器 翻译 、 



































语音 识别 等 应 用 是 
FE 之 前 过 到 过 的 信息 





出 于 这 个 原因 ， 我 们 引入 了 RNN, RNN 是 一 组 能 够 保留 并 记 介 

















的 深度 学 习 架 构 。 





10.1 RNN 的 直观 解释 














El, A= 


现在 解释 一 下 RNN JE 


N 





S 


么 在 相同 的 字符 序列 HELLO 上 工作 的 。 当 RNN 细胞 ( 单 








元 ) 接收 到 E 这 个 输入 时 ， 它 也 接收 到 了 它 早先 接收 到 的 字符 H。 将 现在 的 字符 与 过 
去 的 字符 一 起 作为 RNN 细胞 的 输入 给 这 些 架构 带 来 了 很 大 的 好 处 ， 即 短期 记忆 ， 还 使 
得 这 些 架 构 可 用 于 在 这 个 特定 的 字符 序列 中 预测 猜测 》H 之 后 最 可 能 出 现 的 字符 ， 








即 工 。 





之 前 提 到 的 架构 会 为 输入 分 配 权重 ; RNN 遵循 相同 的 优化 过 程 为 其 多 个 输入 (当前 
输入 和 过 去 输入 ) 分 配 权 重 。 因 此 ， 在 这 种 情况 下， 网络 将 为 它们 中 的 每 一 个 输入 分 配 








一 个 权重 矩阵 。 为 了 做 到 这 一 点 , 我 们 将 使 用 
该 反 向 传播 网 络 又 叫 作 时 间 反 向 传播 (backpropagation through time，BPTT) 网 络 。 





10.1.1 RNN 的 架构 

















梯度 下 降 法 和 较 复 杂 版 本 的 反 向 传播 网 络 ， 























根据 之 前 使 用 的 深度 学 习 架 构 的 背景 ， 读 者 将 了 解 到 RNN 的 特殊 之 处 。 之 前 所 学 








习 的 架构 在 输入 和 训练 方 














并 不 灵活 。 





























并 以 另 一 个 大 小 固定 的 序 允 
员 能 够 将 序列 作为 输入 并 输 
所 示 。 这 种 灵活 性 对 诸如 i 
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它们 以 大 小 固定 的 序列 、 











可 量 或 图 像 作为 输入 ， 





向 量 或 图 像 作为 输出 。RNN 架构 略 有 不 同 ， 它 使 得 开发 人 














Du 另 一 个 


出 另 一 个 序列 ， 或 者 仅仅 在 输入 或 输出 时 使 用 序列 ， 如 图 10.1 
在 言 模型 和 情感 分 析 这 类 的 应 用 来 说 非常 有 用 。 
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图 10.1. RNN 在 输入 或 输出 形状 方面 的 灵活 性 〈 在 GitHub 网 站 中 搜索 “The 



































Unreasonable Effectiveness of Recurrent Neural Networks” 即 可 查看 该 图 片 》 





这 类 架构 背后 的 直观 解释 是 模仿 人 类 处 到 
人 的 话语 的 理解 完全 取决 于 他 之 前 所 说 的 内 容 ， 甚 至 可 以 根据 他 刚才 所 说 的 内 容 预 测 他 


接 下 来 会 说 些 什么 。 





























信息 的 方式 。 在 任何 典型 的 谈话 中 ， 对 某 























在 RNN 的 情况 下 ， 我 们 应 该 遵循 完全 相同 的 过 程 。 例 如 ， 要 翻译 句子 当中 的 某 个 
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第 103€ ”循环 神经 网 络 一 一 语言 模型 


特定 词语 ， 我 们 不 能 用 传统 的 FNN， 因 为 它们 无 法 将 之 前 的 单词 翻译 和 当前 想 要 翻译 的 





















































































































































单词 一 起 作为 输入 ， 这 可 能 会 造成 由 于 缺少 单词 的 上 下 文 
信息 而 错误 翻译 的 情况 。 n 

RNN 确实 保留 了 有 关 过 去 的 信息 , 并 且 它们 会 用 某 种 [| 
循环 来 使 得 过 去 学 习 的 信息 能 够 在 任意 给 定点 用 于 当前 的 

awe X JS dE. 经 Zz , eR ! t 
| Mis 102 中 ， 有 名 为 4 BRE MA pon "ur 
并 产生 输出 万 。 此 外 ， 它 在 循环 结构 的 帮助 下 接收 之 前 步 ”能 保留 过 去 步 又 的 信息 CE GitHub 


























Bx zb ugue: E 网 站 中 搜索 “Understanding LSTM 
又 产生 的 信 JU o Networks” 即 可 查看 该 图 片 ) 


这 个 循环 看 起 来 似乎 不 清晰 ， 但 如 果 用 图 10.2 所 示 的 展开 版 本 ， 就 会 发 现 它 是 十 
分 简单 而 直观 的 ， 而 RNN 只 是 同一 网 络 (可 以 是 普通 的 FNN) 的 重复 版 本 ， 如 图 10.3 


RA UN. 


(9) 
eigen Se —— 
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图 10.3 (EE TRES ZA RAIS E GitHub 网 站 中 搜索 
“Understanding LSTM Networks” 即 可 查看 该 图 片 ) 


这 种 直观 的 RNN 架构 及 其 在 输入 、 输 出 形状 方面 的 灵活 性 使 得 它 非常 适合 基于 序 
列 的 有 趣 学 习 任务 ， 如 机 器 翻译 、 语 言 建 模 、 情 感 分 析 、 图 像 标注 等 。 
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10.1.2 RNN 的 示例 











现在 ， 我 们 已 经 对 RNN 如 何 工 作 以 及 它 如 何 应 用 于 不 同 的 基于 序列 的 有 趣 例子 有 
了 一 个 直观 的 了 解 。 下 面 继续 仔细 了 解 其 中 一 些 有 趣 的 例子 。 


1. 字符 级 语言 模型 


语言 建 模 对 诸如 语音 识别 、 机 器 翻译 等 更 多 应 用 来 说 是 一 个 重要 的 任务 。 本 节 将 尝 
试 模仿 RNN 的 训练 过 程 ， 并 深入 了 解 这 些 网 络 的 工作 原理 。 我 们 将 构建 一 个 对 字符 进 
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行 操作 的 语言 模型 。 因此， 我 们 将 为 模型 提供 很 多 文本 ， 目 的 是 在 给 出 前 一 个 字符 的 前 
提 下 构造 出 下 一 个 字符 的 概率 分 布 ， 这 将 允许 开发 人 员 生 成 类 似 于 训练 过 程 的 那些 输入 
的 文本 。 

例如 ， 假 设 有 一 种 语言 ， 它 只 以 4 个 字母 作为 它 的 词汇 一 -helo。 任 务 是 在 一 个 特 
定 的 字符 序列 《如 hello) 上 训练 一 个 循环 神经 网 络 。 在 这 个 特例 中 ， 有 如 下 4 个 训练 
样本 。 

e 当 给 定 第 一 个 输入 字符 h 的 上 下 文 时 计算 字符 。 的 概率 。 

o 当 给 定 he 的 上 下 文 时 计算 字符 1 的 概率 。 

e 当 给 定 hel 的 上 下 文 时 计算 字符 1 的 概率 。 

e 当 给 定 hell 的 上 下 文 时 计算 字符 o 的 概率 。 
正如 之 前 所 讲 到 的 ， 作 为 机 器 学 习 的 一 部 分 ， 深 度 学 习 通常 只 以 实数 数值 作为 输 
入 。 所 以 ， 我 们 需要 用 某 种 方式 将 输入 字符 转换 或 编码 成 数值 的 形式 。 为 了 做 到 这 一 
点 ， 我 们 可 以 使 用 独 热 向 量 编码 。 独 热 向 量 是 一 种 编码 文本 的 方式 ， 该 向 量 中 除了 一 
个 位 置 外 ， 其 余 位 置 全 为 0， 不 为 0 的 这 个 分 量 就 是 所 要 建 模 的 语言 词汇 (本 例 中 就 是 
helo) 中 字符 的 索引 。 在 编码 完 训 练 样本 后 ， 将 它们 依次 提供 给 RNN 类 型 的 模型 。 在 







































































































































































































































































































































































每 个 给 定 字符 处 ,RNN 类 型 模型 的 输出 将 是 4 维 向 量 ( 向 量 的 大 小 对 应 于 词汇 的 大 小 )， 
它 表 示 词 汇 当 中 的 每 个 字符 作为 下 一 个 字符 Eco 7 3 E 
出 现在 给 定 输入 字符 后 面 的 概率 。 图 10.4 阐明 "HN 03 o E 
了 这 一 过 程 。 am B BM E 
| | | [vow 
如 图 10.4 所 示 ， 将 输入 序列 的 第 一 个 字符 m a EE 
EXE | -0. + 0. >| -0.5 == 0. 
h 输入 模型 中 ， 输 出 是 一 个 4 维 向 量 ， 表 示 下 SES Veal joa) as| os 
一 个 字符 的 置信 度 。 因 此 , h 以 1.0 的 置信 度 作 | 
为 输入 h 的 下 一 个 字符 , e 以 2.2 的 置信 度 作为 mele} [4] fo} |e 
下 一 个 字符 ,1 以 -3.0 的 置信 度 作 为 下 一 个 字符 ， T imm E = = 
、 和 加 信和 讶 作为 下 一 个 字符， 在 这 个 
m o 以 4.1 的 置信 度 作为 下 一 个 字符 。 在 这 个 。 图 104 使 用 独 热 向 量 编 码 字符 作为 输入 的 RNN 的 
特定 的 例子 中 ， 正确 的 下 一 个 字符 是 e, 这 是 根 。” 示例 ， 输 出 是 词汇 上 的 分 布 ， 表 示 在 当前 字符 
; , "ee 后 最 可 能 的 字符 在 GitHub 网 站 中 搜索 “Th 
据 训 练 序 zi j hello 得 出 的 。 F Jr 以 在 训练 这 个 RNN "Moe eae We of Recurrent 
时 的 主要 目的 是 增 大 e 作为 下 一 个 字符 的 置信 Hunc MICE ae 









































度 ， 同 时 减 小 其 他 字符 的 置信 和 度 。 为 了 实现 这 种 优化 ， 我 们 将 使 用 梯度 下 降 算法 和 反 向 
传播 算法 来 更 新 权重 并 影响 网 络 ， 以 使 它 在 正确 的 下 一 个 字符 e 以 及 另外 3 个 训练 样本 
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上 产生 一 个 较 高 的 置信 和 度 。 

可 以 看 到 ，RNN 的 输出 产生 了 一 个 词汇 里 所 有 字符 成 为 下 一 个 字符 的 置信 度 分 布 。 
置信 度 分 布 可 以 转换 为 概率 分 布 ， 这 样 增 大 一 个 字符 成 为 下 一 个 字符 的 概率 ， 就 会 导 
减 小 其 他 字符 成 为 下 一 个 字符 的 概率 ， 因 为 概率 和 必须 为 1。 对 于 这 种 特定 的 修改 ， 可 
以 对 每 个 输出 向 量 使 用 标准 的 softmax 层 。 

为 了 从 这 类 网 络 中 产生 文本 ， 可 以 向 模型 中 输入 一 个 起 始 字符 ， 并 获得 哪些 字符 
将 成 为 下 一 个 字符 的 概率 分 布 ， 然 后 从 这 些 字 符 中 进行 采样 ， 并 将 采样 值 作为 输入 输 
反馈 到 模型 当中 。 通 过 一 遍 遍 地 重复 这 一 过 程 ， 我 们 就 可 以 获得 一 系列 字符 ， 重 复 次 
数 和 产生 具有 期 望 长 度 的 文本 所 要 求 的 次 数 一 样 。 

2. 用 水 士 比 亚 数 据 集 的 语言 模型 
在 前 面 的 例子 中 ， 我 们 可 以 获得 一 个 产生 文本 的 模型 。 但 令 人 吃惊 的 是 ， 网 络 不 仅 
能 够 产生 文本 ， 它 还 能 够 学 习 训练 数据 中 的 风格 和 结构 。 这 一 有 趣 的 过 程 可 以 通过 在 
类 特定 文本 上 训练 一 个 RNN 模型 来 表述 ， 该 类 文本 有 自己 的 结构 和 风格 ， 比 如 ， 下 面 
莎士比亚 的 作品 。 


下面 是 训练 好 的 网 络 产生 的 输出 。 





























































































































































































































Second Senator: 
They are away this miseries, produced upon my soul, 
Breaking and strongly should be buried, when I perish 
The earth and thoughts of many states. 
尽管 网 络 只 知道 每 次 产生 单个 字符 ， 但 它 能 够 产生 一 串 具 有 落 士 比 亚 作 品 结构 和 风 
格 的 有 意义 的 文本 与 名 字 。 
10.1.8 ”梯度 消失 问题 


当 训练 这 类 RNN 架构 时 ， 我 们 要 用 到 梯度 下 降 算法 和 时 间 反 向 传播 算法 ， 这 两 种 
算法 在 许多 基于 序列 的 学 习 任 务 中 取得 了 成 功 。 但 是 由 于 梯度 的 性 质 和 使 用 快速 训练 的 
策略 ， 可 以 看 到 梯度 往往 变 得 太 小 甚至 消失 。 这 个 过 程 引入 了 许多 从 业者 会 陷入 的 梯度 
消失 问题 ， 如 图 10.5 所 示 。 本 章 后 面 将 讨论 研究 人 员 如 何 解决 这 类 问题 ， 并 提出 一 般 
RNN 的 变种 来 解决 这 个 问题 。 
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图 10.5 梯度 消失 问题 





10.1.4 ”长 期 依赖 问题 


研究 者 面临 的 男 一 个 挑战 是 长 期 依赖 问题 人们 可 以 在 文本 中 遇 到 该 类 问题 。 例如， 
有 人 提供 一 个 序列 “I used to live in France and I learned how to speak...”， 很 明显 序列 的 
下 一 个 词 是 “French”。 

一 般 的 RNN 可 以 处 理 该 种 情况 ， 因 为 RNN 
有 短期 依赖 能 力 ， 如 图 10.6 所 示 。 


在 另 一 个 例子 中 ， 如 果 有 人 这 样 开始 一 个 序列 5 Ó a H à 
^] used to live in France...” 然 后 他 开始 描述 在 那里 
美好 的 生活 ， 最 后 他 这 样 结束 序列 “I learned to 
speak French”。 为 了 使 模型 在 序列 的 结尾 预测 他 
所 学 的 语言 ， 模 型 必须 保留 较 早 的 单词 “live” 和 


“France” 的 一 些 信息 。 如 果 模 型 无 法 跟踪 文本 中 的 长 期 依赖 关系 ， 则 该 模型 将 无 法 处 理 
这 种 情况 ， 如 图 10.7 所 示 。 
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图 10.7. 文本 中 的 长 期 依赖 问题 (在 GitHub 网 站 中 搜索 
“Understanding LSTM Networks” 即 可 查看 该 图 片 ) 



















































































图 10.6 文本 中 的 短期 依赖 关系 (在 
GitHub 网 站 中 搜索 “Understanding 
LSTM Networks” 即 可 查看 该 图 片 ) 











































































































为 了 处 理 文本 中 的 梯度 消失 和 长 期 依赖 问题 ， 研 究 者 提出 了 一 种 一 般 RNN 的 变种 ， 
称 作 长 短期 记忆 ( Long Short Term Memory, LSTM ) 网 络 。 
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10.2 LSTM 网 络 


作为 RNN 的 一 个 变种 , LSTM 常常 用 来 解决 文本 中 的 长 期 依赖 问题 。LSTM 最 初 由 
Hochreiter 和 Schmidhuber (1997) 提出 〈 见 论文 “LONG SHORT-TERM MEMORY”), 
很 多 研究 者 致力 于 研究 它 ， 并 在 许多 领域 产生 了 很 多 有 趣 的 结果 。 

这 类 架构 因为 其 内 部 架构 能 够 处 理 文 本 中 的 长 期 依赖 问题 。 

LSTM 网 络 和 普通 RNN 类 似 , 前 者 有 一 个 在 时 间 上 重复 的 模块 , 但 这 个 重复 模块 的 
内 部 架构 和 普通 RNN 有 所 不 同 。 它 包含 了 更 多 的 层 来 遗 筷 和 更 新 信息 ， 如 图 10.8 所 示 。 


AE INED 
A j ru 


图 10.8 标准 RNN 中 的 重复 模块 包含 单个 层 〈 在 GitHub 网 站 中 
搜索 “Understanding LSTM Networks” 即 可 查看 该 图 片 ) 







































































































































































正如 前 面 提 到 的 ， 普 通 RNN 有 单个 NN 层 ， 但 是 LSTM 网 络 有 4 个 不 同 的 层 并 以 
一 种 特别 的 方式 交互 ， 如 图 10.9 所 示 。 在 构建 语言 模型 示例 时 我 们 将 了 解 到 ， 这 种 特殊 
的 交互 方式 使 得 LSTM 在 很 多 领域 都 能 很 好 地 发 挥 作 用 。 
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图 10.9 LSTM 网 络 中 的 重复 模块 包含 4 个 不 同 的 层 〈 在 GitHub 
网 站 中 搜索 “Understanding LSTM Networks” 即 可 查看 该 图 片 ) 












































至 于 其 数学 细节 以 及 4 个 层 之 间 有 具体 是 怎样 交互 的 ,读者 可 以 在 GitHub 网 站 中 查看 
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具体 教程 。 
为 什么 LSTM 网 络 有 效 














通常 ， 设 计 LSTM 网 络 架 构 的 第 一 步 是 决定 哪 部 分 信息 是 不 必要 的 ，LSTM 网 络 可 
以 通过 抛弃 这 部 分 信息 来 为 更 重要 的 信息 腾 出 空间 。 为 此 ，LSTM 网 络 会 有 一 个 称 为 遗 
忘 门 的 层 ， 该 层 会 查看 前 一 个 输出 h | 和 当前 输入 x， 并 决定 要 丢弃 哪些 信息 。 

ieee e 构 的 下 一 步 是 决定 哪 一 部 分 信息 是 值得 保留 (持久 地 存储 ) 在 元 
胞 中 的 。 过 程 分 两 步 完成 。 

(1) 创建 一 个 称 为 输入 门 的 层 ， 该 层 用 来 决定 单元 之 前 状态 中 的 哪 一 些 值 需 
更 新 。 

(2) 产生 一 组 新 的 候选 值 ， 并 将 它们 加 到 元 胞 中 。 

最 后 ， 我 们 需要 决定 LSTM 元 胞 的 输出 内 容 。 这 一 输出 基于 元 胞 的 状态 ， 但 它 还 是 
一 个 过 滤 的 版 本 。 
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10.3 语言 模型 的 实现 


本 节 将 构建 一 个 在 字符 级 别 操作 的 语言 模型 。 为 了 实现 这 一 模型 ， 我 们 将 用 到 
《安娜 。 卡 列 尼 娜 》(Anna Karenina) 小 说 ， 并 了 解 网 络 怎么 学 习 以 实现 文本 的 结构 
和 风格 。 























该 网 络 是 基于 Andrej Karpathy 关于 RNN 的 文章 (在 GitHub 网 站 中 搜索 “The 
Unreasonable Effectiveness of Recurrent Neural Networks” 即 可 查看 该 图 片 ) 并 且 
使 用 Torch 实现 的 (请 在 GitHub 网 站 上 karpathy 的 个 人 主页 中 搜索 “char-rnn”)。 
qp 同时 ， 在 R2RT 网 站 (请 在 R2RT 网 站 中 搜索 “Recurrent Neural Networks in 
Tensorflow II” ) 上 也 有 一 些 信 息 ， 还 有 GitHub 网 站 上 Sherjil Ozairp 的 信息 (请 
JE GitHub 网 站 上 sherjilozair 的 个 人 主页 中 搜索 “charrnn-tensorflow”)。 接 下 来 
是 字符 级 RNN 的 常用 结构 。 














本 书 将 构建 一 个 在 《安娜 。 卡 列 尼 娜 》 小 说 上 训练 的 字符 级 RNN， 如 图 10.10 
所 示 。 它 能 够 基于 书 中 的 文本 产生 新 的 文本 。 读者 可 以 在 这 一 实现 的 文件 中 找到 .txt 
文件 。 
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目标 字符 : "e | | o 
1.0 0.5 0.1 0.2 
we | 22 0.3 0.5 -1.5 
输出 层 -3.0 -1.0 1.9 -0.1 
4.1 12 mA 22 
| te 
0.3 1.0 0.1 |w hh| -0.3 
隐藏 层 | -0.1 >| 0.3 >| -0.5 上 一 ”| 0.9 
0.9 0.1 -0.3 0.7 
| {1 po wm 
1 0 0 0 
= | 0 1 0 0 
输入 层 B d 5 
0 0 0 0 
输入 字符 ‘h "e" i T 
图 10.10. 字符 级 RNN 的 通常 架构 (在 GitHub 网 站 中 搜索 























“The Unreasonable Effectiveness of Recurrent 
Neural Networks” 即 可 查看 该 图 片 ) 




















从 为 字符 级 应 用 导入 必要 的 库 开 始 。 


import numpy as np 


import tensorflow as tf 


from collections import namedtuple 


首先 ， 需 要 通过 加 载 数 据 集 ， 并 将 它 转换 为 整数 来 准备 数据 集 。 因 此 ， 将 会 把 字符 
转换 为 整数 ， 然 后 把 它们 作为 整数 来 编码 ， 这 使 得 能 够 轻松 地 使 用 这 些 整 数 作为 模型 的 
输入 变量 。 






































#reading the Anna Karenina novel text file 
with open('Anna Karenina.txt', 'r') as f: 


textlines-f.read() 


#Building the vocan and encoding the characters as integers 

language vocab = set(textlines) 

vocab to integer = (char: j for j, char in enumerate(language vocab)] 
integer to vocab = dict (enumerate (language vocab)) 

encoded vocab = np.array([vocab to integer[char] for char in textlines],dtype-np. 
int32) 


现在 看 看 《安娜 。 卡 列 尼 娜 》 一 书 中 的 前 200 个 字符 。 
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textlines[:200] 


输出 如 下 。 


"Chapter 1\n\n\nHappy families are all alike; every unhappy family is unhappy 
in its own\nway.\n\nEverything was in confusion in the Oblonskys' house. The 


wife had\ndiscovered that the husband was carrying on" 


我 们 已 经 把 字符 转换 为 方便 网 络 处 理 的 形式 ， 也 就 是 整数 。 现 在 看 看 编码 以 后 的 


o 

















encoded vocab[:200] 















































输出 如 下 。 

array([70, 34, 54, 29, 24, 19, 76, 45, 2, 79, 79, 79, 69, 54, 29, 29, 49, 
45, 66, 54, 39, 15, 44, 15, 19, 12, 45, 54, 76, 19, 45, 54, 44, 44, 
45, 54, A4, lb, 27, 19, 58, 45, 19, 30, 19, 76, 49, 45, :59,.56,. 34, 
54, 29, 29, 49, 45, 66, 54, 39, 15, 44, 49, 45, 15, 12, 45, 59, 56, 
34;.:b4, 29, 29, 49, 45, I5; 56, 45, l5, 24, 12, 45, 11, -35;- 56, 79, 
35, b4, 49, 53, 19, 79, 30, 30, 19, 76, 49, 24, 34, 15, 56, 106; 45, 
35; 54; 12, 45, 15, 56, 45; 3l, 11; 56, 66, 59, 12, 15; 11; 56, 45, 
15; 56, 45, 24, 34, 19, 45, 17, 982, 44; 11, 56,4, 12,54 27,.49,.12,.37 
45, .34,-T1,.59, 12, 19,.53, 45, 2T, 34, 19, 45, 35, Loy 66; 19, 45, 
34; 54, 64, 79, 04, 15, 12, 31; 1l, 30, 19, 76, 19, 64, 45, 24, 34, 
54, 24, 45, 24, 34, 19, 45, 34, 59, 12, 82, 54, 56, 064, 45, 35, 54, 
12, 45, 31, 54, 76, 76, 49, 15, 56, 16, 45, 11, 56], dtype-int32) 

因为 网 络 使 用 单个 字符 ， 所 以 类 似 于 分 类 问题 ， 我 们 可 以 通过 之 前 的 文本 来 尝试 预 











个 字符 。 该 字符 的 种 类 就 是 网 络 需要 选择 的 类 别 数量 。 


每 次 往 模 型 中 输入 一 个 字符 后 ， 模 型 会 通过 产生 一 个 可 能 成 为 下 一 个 字符 的 所 有 字 





























^f GAL) 的 概率 分 布 来 预测 下 一 个 字符 ， 该 分 布 的 数量 相当 于 网 络 需要 挑选 的 类 别 数 。 


len (language_vocab) 
输出 如 下 。 
83 


因为 要 用 到 随机 梯度 下 降 法 来 训练 模型 ， 所 以 需要 把 数据 转换 为 训练 批 次 。 





> 
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10.3.1 


íl 


生成 训练 的 最 小 批 

























































































在 本 节 中 ， 我 们 将 把 数据 分 为 用 于 训练 小 批 次 。 所 以 ， 批 次 将 包含 许多 的 序列 ， 它 
门 具有 指定 数量 的 序列 步 数 。 下 面 看 图 10.11 所 示 的 一 个 可 视 化 例子 。 
个 ^ 个 开始 序列 ; 
[123456 7 8 9 10 11 12] 
批 次 大 小 =2 
Q Q e [123 4 5 6] 
[7 8 9 10 11 12] 
p Q - 序列 长 度 =3 
d 5 6] 
i > 3 8 9|10 11 12] 
7 8 9 
K 10.11 ” 批 次 和 序列 的 描述 图 (图 片 来 源 : GitHub 网 站 ) 
现在 ， 定 义 一 个 函数 来 迭代 地 处 理 编 码 的 文本 并 产生 批 次 。 这 个 浮 数 用 到 了 Python 











Explained”). 





一 个 典型 的 批 次 会 包含 NxM 个 字符 ， 


HH 


7x 




















中 一 个 很 好 的 机 制 一 一 yield (参考 文章 “Improve Your Python: yield and Generators 


P. 代表 序列 的 个 数 ， 而 M 则 是 每 个 序 


列 的 步 数 。 为 了 获得 数据 集 可 能 的 批 次 数量 ， 可 以 简单 地 把 数据 的 长 度 除 以 指定 的 批 次 
大 小 ， 在 获得 可 能 的 批 次 数量 后 ， 就 可 以 知道 每 个 批 次 当中 应 该 有 多 少 字符 。 











然后 ， 需 要 把 数据 集 分 为 指定 数量 
































一 维 的 大 小 。 对 了 


f 


PS Af 


字符 。 
来 作为 模型 的 输入 。 在 这 
输入 。 第 一 个 输入 字符 通常 会 作为 标签 的 最 后 一 个 字符 ， 
































数组。 在 这 之 后 ， 就 应 该 有 大 小 为 的 Nx CMxK) 的 数组 ， 





既然 有 了 这 个 数组 后 ， 就 可 以 对 它 进 

















N) 的 序列 ， 这 可 以 


行 迭 代 以 获得 批 次 , 其 
对 于 随后 的 批 次 ， 窗 口 会 移动 num_steps 步 。 最 后 ， 还 需要 创建 输入 和 输出 数组 


一 步 中 ， 创 建 输出 数值 很 简单 ， 记 住 ， 标 签 是 后 移 一 个 字符 






























































有 具体 如 下 。 


yi1] yi1] = xE,1:]x[:,0] 


其 中 , x 是 输入 批 次 ， ?了 是 标签 批 次 。 





] arrreshape(size) 实 现 。 
里 可 以 知道 需要 大 小 为 N 的 序列 (后面 的 代码 中 会 用 num steps 表示 ), 令 它 作为 数据 第 
F 第 二 维 ， 可 以 在 批 次 大 小 中 用 -1 作为 占 位 符 ， 它 会 用 合适 的 数据 来 填 


这 














FH, K 是 批 次 的 数量 。 


P. 每 个 批 次 有 NxM 个 


的 


2 
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这 里 处 理 窗 口 的 方法 是 使 用 range 函数 来 从 0 到 arrshape[1] 〈 表 示 每 个 序列 需要 处 





























ie 


里 的 总 步 数 ) 取 值 ， 每 次 步 长 取 num steps。 用 这 种 方法 ， 使 用 
向 一 个 批 次 的 开头 ， 并 且 每 个 窗口 的 宽度 为 num_steps。 





























range 获得 的 整数 总 是 指 





def generate character batches(data, num seq, num steps): 


''"'Create a function that returns batches of size num s 
from data. 

veer 

Get the number of characters per batch and number 

num_char_per_batch = num_seq * num_steps 

num_batches = len(data)//num_char_per_batch 

Keep only enough characters to make full batches 

data = data[:num_batches * num_char_per_batch] 

Reshape the array into n_seqs rows 





data = data.reshape((num_seq, -1) 

for i in range(0, data.shape[1], num steps): 

# The input variables 

input x = data[:, i:i*num steps] 

# The output variables which are shifted by one 
output y = np.zeros like(input x) 

output y[:, :-1], output y[:, -1] = input x[:, 1:] 
yield input x, output y 


eq x num steps 


of batches 


, input x[:, 0] 


可 以 通过 生成 一 个 包含 15 个 序列 和 50 个 序列 步 数 的 批 次 来 演示 这 一 函数 。 





generated batches = generate character batches (encoded vocab, 15, 50) 


input x, output y = next (generated batches) 
print ('input\n', input x[:10, :10]) 
print('\ntarget\n', output y[:10, :10]) 




















输出 如 下 。 
input 
70 34 54 29 24 19 76 45 2 79 
45 19 44 15 16 15 82 44 19 45 
1 45 44 15 16 34 24 38 34 19 
45 34 54 64 45 82 19 19 56 45 
45 56. 196-45 27 56 19. 35 79 
49 19 54 76 12 45 44 54 12 24 
45 41 19 45 16 11 45 15 56 24 
135 45 24 11 45 39 54 27 19 
82 19 66 11 76 19 45 81 19 56 
2 54 16 19 45 44 15 27 19 45]] 
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target 
34 54 29 24 19 76 45 2 79 79 
9 44 15 16 15 82 44 19 45 16 
45 44 15 16 34 24 38 34 19 54 
34 54 64 45 82 19 19 56 45 82 
56 19 45 27 56 19 35 79 35 
9 54 76 12 45 44 54 12 24 45 
4 19 45 16 11 45 15 56 24 11 
35 45 24 11 45 39 54 27 19 33 
9 66 11 76 19 45 81 19 56 24 
54 16 19 45 44 15 27 19 45 24]] 


























接 下 来 ， 构 建 这 个 例子 的 核心 





LSTM 模型 。 


10.3.2 ”构建 模型 











( Stacked LSTM ) 网 络 。 

















HES LSTM 网 络 可 用 于 从 不 同时 间 尺 度 来 观察 信息 。 
1. HER LSTM 网 络 




















在 深入 讲解 用 LSTM 网 络 构 建 字符 级 模型 之 前 ， 需 要 先 介 绍 一 下 堆 LSTM 


“通过 将 多 个 循环 的 隐藏 状态 相互 堆 登 在 一 起 来 构建 深度 RNN。 这 种 方法 可 能 
允许 每 个 层次 的 隐藏 状态 在 不 同 的 时 间 尺 度 上 操作 .” 见 arxiv 网 站 上 的 文章 “Howto 


Construct Deep Recurrent Neural Networks" . 


“RNN 本 身 在 时 间 上 就 是 有 深度 的 ， 因 为 它们 的 隐藏 状态 是 前 面 所 有 隐藏 
状态 的 一 个 函数 。 这 篇 文章 提出 的 问题 是 RNN 是 否 也 可 以 从 空间 深度 上 获 益 ， 
这 通过 相互 之 间 堆 到 多 个 循环 的 隐藏 层 来 实现 ， 就 像 前 馈 层 堆 又 在 传统 深度 网 
络 中 一 样 .” 见 arxiv 网 站 上 的 文章 “Speech Recognition with Deep Recurrent 


Neural Networks。”。 








KEW FA ABD HESS LSTM 网 络 来 解决 序列 预测 问题 。 一 个 夫 








E LSTM 网 络 架 构 可 
































以 定义 为 一 个 包含 多 个 LSTM 层 的 LSTM 网 络 模型 。 靠 前 的 LSTM 层 为 后 续 的 LSTM 
层 提 供 了 一 个 序列 输出 ， 而 不 是 一 个 单 值 输出 。 


如 












































特别 是 ， 它 的 每 一 个 输入 时 间 步 对 应 一 个 输出 ， 而 不 是 一 个 输 昌 
图 10.12 所 示 。 








8 对 应 所 有 输入 时 间 步 ， 
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所 以 在 这 个 例子 中 ， 我 们 将 使 用 这 种 堆 登 LSTM 网 络 架构 ， 它 会 有 更 好 的 性 能 。 
2. 模型 架构 


网 络 构建 在 模型 架构 之 上 。 本 书 将 把 模型 架构 分 为 多 个 部 分 以 便 逐 个 讲解 。 然 后 ， 
把 它们 连 在 一 起 构成 一 个 完整 的 网 络 ， 如 图 10.13 Aras. 









































输出 o b e o F. 
个 A A A A A 
sormax | Softmax Sottmax | Softmax Softmax 
Softmax 
* LY LY x x 














LSTM | > LSTM > LSTM > LSIM | LSTM 
Ld Eu) Vink a a Teme 
















































































LSTM - 
LSTM J »| LSTM > LSIM > LSTM —»| LSTM 
—— Ie x a A a x 
LSTM r- O O 
输入 t o b e o 
图 10.12 AE LSTM 网 络 图 10.13 ”字符 级 模型 架构 




















3. 输入 


现在 ， 我 们 从 将 模型 输入 定义 为 占 位 符 开 始 。 模 型 的 输入 是 训练 数据 和 标签 。 我 们 
还 会 将 一 个 名 为 keep probability 的 参数 用 在 dropout 层 中 ， 它 对 防止 模型 过 拟 合 会 有 所 
帮助 。 














def build_model_inputs(batch_size, num steps): 

# Declare placeholders for the input and output variables 

inputs x = tf.placeholder(tf.int32, [batch size, num steps], 
name-'inputs') 

targets y = tf.placeholder(tf.int32, [batch size, num steps], 
name-'targets') 

# define the keep probability for the dropout layer 

keep probability = tf.placeholder(tf.float32, name-'keep prob') 

return inputs x, targets y, keep probability 


4. 构建 LSTM 元 胞 
在 本 节 中 ， 我 们 将 写 一 个 函数 用 于 构造 LSTM 元 胞 ， 它 将 用 在 隐藏 层 中 。 这 个 元 胞 
































oe a —_—_ 233 # x 


第 10 章 ”循环 神经 网 络 一 一 语言 模型 




















会 成 为 模型 的 构建 块 ， 因 此 我 们 将 使 用 TensorFlow 来 创建 这 个 元 胞 。 接 下 来 看 看 如 何 使 
用 TensorFlow 来 构建 基本 的 LSTM 元 胞 。 


调用 下 面 的 一 行 代码 来 构造 带 有 参数 num. units 的 LSTM 元 胞 ， 它 表示 隐藏 层 中 的 
元 数量 。 


















































lstm cell = tf.contrib.rnn.BasicLSTMCell (num units) 


为 了 防止 过 拟 合 ， 我 们 还 要 用 到 dropout 技术 ， 该 技术 是 一 种 通过 降低 模型 复杂 度 
来 防止 模型 在 数据 上 过 拟 合 的 机 于 









































= 





o 


tf.contrib.rnn.DropoutWrapper(lstm, output keep prob-keep probability) 
正如 前 面 提 到 的 ， 这 里 将 用 到 堆 铸 LSTM 28484. HERS LSTM 网 络 架构 会 帮助 开 


发 人 员 从 不 同 角 度 观察 数据 ， 并 在 实践 中 能 有 更 好 的 表现 。 为 了 用 TensorFlow 定义 一 个 
HESS LSTM 网 络 ， 可 以 用 tf.contrib.rnn.MultiRNNCell 函数 (参见 TensorFlow 官网 )。 






































[ra 






































tf.contrib.rnn.MultiRNNCell([cell]*num layers) 


开始 ， 第 一 个 元 胞 没有 之 前 的 信息 ， 所 以 需要 把 元 胞 的 状态 初始 为 零 。 这 可 以 用 下 
面 的 函数 来 实现 。 



































initial state = cell.zero state(batch size, tf.float32) 


把 它们 放 在 一 起 来 构造 一 个 LSTM 元 胞 。 





def build lstm cell(size, num layers, batch size, keep probability): 


### Building the LSTM Cell using the tensorflow function 

lstm cell = tf.contrib.rnn.BasicLSTMCell (size) 

# Adding dropout to the layer to prevent overfitting 

drop layer = tf.contrib.rnn.DropoutWrapper(lstm cell, output keep prob- 
keep probability) 

# Add muliple cells together and stack them up to oprovide a level of more 
understanding 

Stakced cell = tf.contrib.rnn.MultiRNNCell([drop layer] * num layers) 

initial cell state = lstm cell.zero state(batch size, tf.float32) 


return lstm cell, initial cell state 


5. RNN 输出 


接 下 来 ， 需 要 构造 输出 层 。 输 出 层 需要 读 取 单 个 LSTM 元 胞 的 输出 ， 然 后 把 它们 传 
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递 到 全 连接 层 。 输 出 层 有 一 个 softmax 输出 
的 概率 分 布 。 


之 前 已 经 为 网 络 生 成 了 大 小 为 NxM 个 字符 的 输入 批 次 , 其 中 , N 是 批 次 中 的 序列 数 
量 ， 而 M 是 序列 的 步 数 。 在 创建 模型 时 ， 我 们 还 在 隐藏 层 中 用 了 工 个 隐藏 单元 。 基 于 批 
次 大 小 以 及 隐藏 单元 个 数 ， 网 络 的 输出 将 是 一 个 NxMxL 的 三 维 张 量 ， 这 是 因为 调用 了 
LSTM 元 胞 M 次 , 每 一 个 序列 步骤 调用 一 次 。 每 一 次 调用 LSTM 元 胞 都 会 产生 一 个 大 小 
AL 的 输出 。 最 后 ， 需 要 重复 的 次 数 等 于 拥有 的 序列 数量 N。 

把 NxMXL 的 输出 输入 全 连接 层 里 (对 所 有 的 输出 都 有 一 样 的 权重 )。 但 在 做 这 个 之 
前 ， 需 要 把 输出 调整 为 2 维 张 量 ， 它 的 形状 是 (MxN) xL。 这 个 调整 会 使 得 在 操作 输出 
时 更 加 方便 ， 因 为 新 的 形状 会 有 更 多 的 便利 : 每 一 列 都 表示 LSTM 元 胞 的 工 个 输出 ， 因 
此 这 是 每 一 个 序列 的 每 一 步 里 的 一 列 。 
得 到 新 的 形状 后 ， 可 以 通过 和 权重 进行 矩阵 相 乘 ， 从 而 与 带 softmax 的 全 连接 层 相 
连 。 在 LSTM 元 胞 里 已 构建 的 权重 和 这 里 将 创建 的 权重 默认 有 相同 的 名 字 ， 在 这 种 情况 
下 TensorFlow 会 报错 。 为 了 避免 这 个 错误 ， 可 以 用 TensorFlow 的 函数 t£.variable scope() 
将 这 里 创建 的 权重 和 偏 置 变量 放 在 一 个 变量 作用 域内 。 
在 解释 输出 的 形状 以 及 如 何 重 塑 它 之 前 ， 为 了 让 事情 变 得 简单 一 点 ， 先 定义 一 个 畏 
助 函 数 build model output. 


用 来 产生 输入 字符 之 后 可 能 的 下 一 个 字符 






































































































































































































































































































































def build model output (output, input size, output size): 


# Reshaping output of the model to become a bunch of rows, where each row 
correspond for each step in the seq 
sequence output = tf.concat (output, axis=1) 
reshaped output = tf.reshape(sequence output, [-1, input size]) 
# Connect the RNN outputs to a softmax layer 
with tf.variable scope('softmax'): 
softmax_w = tf.Variable(tf.truncated normal((input size, output size), 
stddev-0.1)) 
softmax b = tf.Variable(tf.zeros(output size)) 
# the output is a set of rows of LSTM cell outputs, so the logits will be 
a set 
# of rows of logit outputs, one for each step and sequence 
logits = tf.matmul(reshaped output, softmax w) + softmax b 
# Use softmax to get the probabilities for predicted characters 
model out = tf.nn.softmax(logits, name='predictions') 


return model out, logits 
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对 标签 进行 独 热 编码 ， 以 编码 字符 的 格式 获取 它们 。 然 后 ， 调 整 独 热 标签 的 形状 ， 使 它 
成 为 一 个 OM*ND xC 大 小 的 二 维 向 量 ， 其 中 ，C 是 所 拥有 的 类 别 〈 字 符 ) 数量 。 之 前 我 


6. 训练 损失 
接 下 来 ， 训 练 损失 。 我 们 可 以 获得 对 数 和 标签 并 计算 softmax 45308. TE, mE 
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们 调整 了 LSTM 层 输出 的 形状 ， 并 让 它们 通过 带 有 C 个 单元 的 全 连接 层 。 所 以 ， 对 数 形 
式 的 大 小 也 为 OM*ND xC. 
































然后 ， 用 tf.nn.softmax_cross_entropy_with logits 来 运行 logits 和 targets， 并 计算 平 





均值 以 获得 损失 。 








def model loss(logits, targets, lstm size, num classes): 

# convert the targets to one-hot encoded and reshape them to match the logits, 
one row per batch size per step 

output y one hot = tf.one hot(targets, num classes) 

output y reshaped = tf.reshape (output y one hot, logits.get shape()) 

#Use the cross entropy loss 

model loss = tf.nn.softmax cross entropy with logits(logits-logits, labels= 
output y reshaped) 

model loss = tf.reduce mean (model loss) 


return model loss 


7. 优化 器 
最 后 ， 我 们 需要 用 一 个 优化 方法 以 从 数据 集中 学 习 东 西 。 之 前 讲 到 ， 普 通 RNN 存 


S 





























在 梯度 爆炸 和 梯度 消失 问题 。LSTM 网 络 只 解决 了 其 中 一 个 问题 ， 即 梯度 值 消失 问题 。 
































但 即使 在 使 用 了 LSTM 网 络 后 ， 也 存在 部 分 梯度 值 爆炸 且 无 限 增长 的 可 能 性 。 为 了 解决 








这 个 问题 ， 可 以 用 梯度 裁剪 法 ， 这 个 方法 会 把 超过 某 个 特定 阀 值 的 梯度 裁剪 掉 。 











现在 可 以 通过 用 Adam 优化 器 为 学 习 这 个 过 程 定义 优化 器 。 





def build_model_optimizer(model_loss, learning_rate, grad_clip): 


# define optimizer for training, using gradient clipping to avoid the exploding 
of the gradients 

trainable variables = tf.trainable variables () 

gradients, _ = tf.clip by global norm(tf.gradients (model loss, trainable_ 
variables), grad clip) 


#Use Adam Optimizer 


— < < #_ 


train_operation 
model_optimizer 


variables) ) 
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= tf.train.AdamOptimizer (learning rate) 


= train operation.apply gradients (zip (gradients, trainable_ 


return model_optimizer 


8. 构建 网 络 





现在 ， 我 们 可 以 把 所 有 的 片段 连 在 一 起 以 构建 一 个 网 络 的 类 。 为 了 切实 在 LSTM 元 
胞 上 运行 数据 ， 将 会 用 到 t£nn.dynamic rnn (Ji, TensorFlow 官网 )。 这 个 函数 会 把 隐藏 的 
状态 和 元 胞 状态 通过 LSTM 元 胞 合理 地 传递 过 来 。 它 会 返回 最 小 批 次 里 每 个 序列 每 一 步 
的 每 一 个 LSTM 元 胞 输出 ， 同 时 它 还 会 给 出 最 后 的 LSTM 状态 。 我 们 想 把 这 个 状态 另存 
































为 final state， 从 而 可 以 把 它 传递 给 下 一 个 最 小 批 次 的 第 一 个 LSTM 元 胞 。 对 于 
tf.nn.dynamic rnn， 我 们 向 它 传 入 从 build Istm 获得 的 元 胞 、 起 始 状态 以 及 输入 序列 。 同 
时 ， 在 将 输入 送 入 RNN 之 前 ， 需 要 对 输入 进行 独 热 编码 。 


class CharLSTM: 



































def init (self, num classes, batch size-64, num steps-50, 


lstm size-128, num layers-2, learning rate-0.001, 


grad clip-5, sampling-False): 


# When we're using this network for generating text by sampling, we'll be 


providing the netwo 


# one chara 


rk with 


cter at a time, so providing an option for it. 


if sampling == True: 
batch size, num steps = 1, 1 
elses 
batch_size, num_steps = batch_size, num steps 


tf.reset_de 
# Build the 
self.inputs 


size, num steps) 


Building 


lstm cell, 


fault graph() 
model inputs placeholders of the input and target variables 


, Self.targets, self.keep prob = build model inputs (batch. 


the LSTM cell 


self.initial state = build lstm cell(lstm size, num layers, 


batch size, self.keep prob) 


one hot e 


input x one 











Run the data through the LSTM layers 


ncode the input 


. hot = tf.one hot(self.inputs, num classes) 


Runing each sequence step through the LSTM architecture and finally 


collecting the outputs 
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outputs, state = tf.nn.dynamic rnn(lstm cell, input x one hot, initial. 


state-self.initial state) 
self.final state = state 


# Get softmax predictions and logits 


self.prediction, self.logits = build model output (outputs, 


num classes) 


# Loss and optimizer (with gradient clipping) 


lstm size, 


self.loss - model loss(self.logits, self.targets, lstm size, num classes) 





self.optimizer - build model optimizer(self.loss, learning rate, grad clip) 


9. 模型 超 参数 

















与 其 他 深度 学 习 架 构 一 样 ， 有 一 些 超 参 数 可 用 来 控制 模型 并 对 它 进 行 微调 。 以 下 是 




















用 于 此 架构 的 超 参数 集 。 
e 批 次 大 小 是 每 次 输入 网 络 里 的 序列 数量 。 











e 步 数 是 训练 网 络 的 序列 中 的 字符 数 , 通常 ， 步 数 越 大 越 好 ， 以 便 网 络 可 以 学 到 更 

















多 的 长 期 依赖 关系 ,但 是 这 会 导致 更 长 的 训练 时 间 。 在 这 里 ， 











较 好 的 步 数 值 。 
€ LSTM 大 小 是 隐藏 层 的 单元 数量 。 
e 架构 层 数 是 要 用 到 的 隐藏 LSTM 层 数 。 


e 学 习 率 是 通常 的 训练 学 习 率 。 
















































































100 一 般 是 一 个 比 


e 最 后 ， 名 为 保留 概率 的 新 参数 是 在 dropout 层 中 使 用 的 ， 它 有 助 于 网 络 避 免 过 拟 




















合 。 所 以 如 果 网 络 过 拟 合 了 ， 可 以 尝试 减 小 这 个 值 。 


10.3.3 ”训练 模型 


























ME, 我们 通过 向 构建 的 模型 提供 输入 和 输出 ， 然 后 使 用 优化 器 来 训练 网 络 。 在 为 
当前 状态 做 预测 时 ， 不 要 忘记 我 们 需要 用 到 之 前 的 状态 。 因 此 ， 我 们 需要 将 输出 状态 传 



































递 回 网 络 ， 以 便 在 预测 下 一 个 输入 时 使 用 它 。 

















现在 为 超 参 数 提 供 初始 值 〈 可 以 根据 用 于 训练 此 架构 的 数据 集 来 调整 它们 )。 








batch_size = 100 
num_steps = 100 


Sequences per batch 
Number of sequence steps per batch 
lstm size = 512 Size of hidden layers in LSTMs 


num_layers = 2 Number of LSTM layers 


— £2: # 


10.3 


learning_rate = 0.001 # Learning rate 
keep probability = 0.5 # Dropout keep probability 


epochs = 5 


# Save a checkpoint N iterations 


save_every_n = 100 


LSTM model = CharLSTM(len(language vocab), batch size-batch size, 
num steps-num steps, 
lstm size-lstm size, num layers-num layers, 


learning rate-learning rate) 


saver = tf.train.Saver (max to keep-100) 
with tf.Session() as sess: 
sess.run(tf.global variables initializer() 
# Use the line below to load a checkpoint and resume training 
# saver.restore(sess, 'checkpoints/ .ckpt') 
counter = 0 
for e in range(epochs): 
# Train network 
new state = sess.run(LSTM model.initial state) 


loss = 0 
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for x, y in generate character batches (encoded vocab, batch size, num steps): 


counter += 1 
start = time.time() 
feed = (LSTM model.inputs: x, 
LSTM model.targets: y, 
LSTM model.keep prob: keep probability, 
LSTM model.initial state: new state] 
batch loss, new state, _ = sess.run([LSTM model.loss, 


LSTM model.final state, 


LSTM model.optimizer], 


feed dict-feed) 


end = time.time() 


print('Epoch number: {}/{}... '.format(e*l, epochs), 
"Step: {}... '.format(counter), 
‘loss? {:.4f}... '.format(batch loss), 


'(:.3£) sec/batch'.format ((end-start))) 


o 


if (counter % save_every_n == 0): 


saver.save(sess, "checkpoints/i{}_1{}.ckpt". format (counter, 


lstm size)) 


saver.save(sess, "checkpoints/i() l(].ckpt".format(counter, lstm size)) 
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在 训练 过 程 结 束 时 ， 应 该 会 得 到 和 以 下 值 接近 的 误差 。 
































Epoch number: 5/5... Step: 978... loss: 1.715 0.050 sec/batch 
Epoch number: 5/5... Step: 979... loss: 1.7428... 0.051 sec/batch 
Epoch number: 5/5... Step: 980... loss: 1.715 0.050 sec/batch 
Epoch number: 5/5... Step: 981... loss: 1.7236... 0.050 sec/batch 
Epoch number: 5/5... Step: 982... loss: 1.7314... 0.051 sec/batch 
Epoch number: 5/5... Step: 983... loss: 1.7369... 0.051 sec/batch 
Epoch number: 5/5... Step: 984... loss: 1.7075... 0.065 sec/batch 
Epoch number: 5/5... Step: 985... loss: 1.7304... 0.051 sec/batch 
Epoch number: 5/5... Step: 986... loss: 1.7128... 0.049 sec/batch 
Epoch number: 5/5... Step: 987... loss: 1.7107... 0.051 sec/batch 
Epoch number: 5/5... Step: 988... loss: 1.735 0.051 sec/batch 
Epoch number: 5/5... Step: 989... loss: 1.7260... 0.049 sec/batch 
Epoch number: 5/5... Step: 990... loss: 1.7144... 0.051 sec/batch 


1. 保存 检查 点 


现在 ， 开 始 加 载 检查 点 。 如 果 要 了 解 更 多 保存 和 加 载 检查 点 的 信息 ， 请 查看 相关 
TensorFlow 文档 〈 见 TensorFlow 官网 )。 









































tf.train.get checkpoint state('checkpoints') 


输出 如 下 。 


model_checkpoint_path: "checkpoints/i990_1512.ckpt" 


l model checkpoint paths: "checkpoints/i100 1512.ckpt" 


l mod heckpoint paths: "checkpoints/i200 1 kpt" 


heckpoint paths: "checkpoints/i300 1 kpt" 


heckpoint paths: "checkpoints/i400 1 kpt" 


heckpoint paths: "checkpoints/i500 1 kpt" 


kpt" 


heckpoint paths: "checkpoints/i700 1 kpt" 


heckpoint paths: "checkpoints/i800 1 kpt" 


Qr Qu Qo OP TQ LOL Qs (Xs CX 


heckpoint paths: "checkpoints/i900 1 kpt" 
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heckpoint_paths: " 


2. 生成 文本 
现在 我 们 已 经 有 了 基于 输入 数据 集 的 训练 好 的 模型 。 下 一 步 是 用 这 个 训练 好 的 模型 来 


heckpoints/i990_1 kpt" 


























-HH 
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生成 文本 ， 并 看 看 这 个 模型 如 何 从 输入 数据 中 学 到 风格 和 结构 。 为 了 达到 这 个 目的 ， 我 们 可 
以 从 一 些 初始 字符 开始 ， 然 后 以 新 的 、 预 测 出 来 的 字符 作为 下 一 步 的 输入 。 这 个 步 又 将 一 直 
重复 ， 直 至 得 到 一 个 指定 长 度 的 文本 。 
在 接 下 来 的 代码 中 ， 我 们 还 在 函数 中 加 入 了 一 些 额 外 的 语句 ， 来 用 一 些 初始 文本 启 
动 网 络 ， 并 从 那里 开始 运行。 

网 络 将 会 给 出 预测 结果 或 者 词汇 表 里 每 个 字符 的 概率 。 为 了 降低 噪声 并 只 用 网 络 比较 
确定 的 字符 ， 我 们 将 只 从 输出 中 最 可 能 的 个 字符 中 挑选 一 个 新 字符 。 







































































def choose_top_n_characters(preds, vocab_size, top_n_chars=4): 
p = np.squeeze (preds) 
p[np.argsort(p)[:-top n chars]] = 0 
p = p / np.sum(p) 
c = np.random.choice(vocab size, 1, p=p) [0] 


return c 


def sample from LSTM output(checkpoint, n samples, lstm size, vocab size, prime- 
"The "): 
samples = [char for char in prime] 
LSTM model = CharLSTM(len(language vocab), lstm size-lstm size, sampling- 
True) 
saver = tf.train.Saver() 
with tf.Session() as sess: 
saver.restore(sess, checkpoint) 
new state = sess.run(LSTM model.initial state) 
for char in prime: 
x = np.zeros((1, 1) 
x[0,0] = vocab to integer[char] 
feed = (LSTM model.inputs: x, 
LSTM model.keep prob: 1., 
LSTM model.initial state: new state) 
preds, new state = sess.run([LSTM model.prediction, 
LSTM model.final state], 
feed dict-feed) 


c = choose top n characters (preds, len(language_vocab) ) 


samples.append(integer to vocab[c]) 
for i in range (n samples): 


x[0,0] = c 
feed = {LSTM_model.inputs: x, 
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LSTM model.keep prob: 1., 
LSTM model.initial state: new state] 
preds, new state - sess.run([LSTM model.prediction, 
LSTM model.final state], 
feed dict-feed) 


c = choose top n characters (preds, len(language vocab)) 
samples.append(integer to vocab[c]) 


return ''.join(samples) 


j 最 新 保存 的 检查 点 来 开始 采样 过 程 。 


























tf.train.latest checkpoint('checkpoints') 
^ 

输出 如 下 。 

'checkpoints/i1990 1512.ckpt' 


开始 用 最 新 的 检查 点 来 采样 : 


























下 




















checkpoint = tf.train.latest checkpoint('checkpoints') 
sampled text = sample from LSTM output (checkpoint, 1000, lstm size, 
len(language vocab), prime-"Far") 


print(sampled text) 


输出 如 下 。 


INFO:tensorflow:Restoring parameters from checkpoints/i990_1512.ckpt 


Farcial the 

confiring to the mone of the correm and thinds. She 
she saw the 
streads of herself hand only astended of the carres to her his some of the 
princess of which he came him of 

all that his white the dreasing of 

thisking the princess and with she was she had 





bettee a still and he was happined, with the pood on the mush to the 


peaters and seet it. 


"The possess a streatich, the may were notine at his mate a misted 
and the 

man of the mother at the same of the seem her 

felt. He had not here. 


$$ qyp 


"T conest only be alw you thinking that the partion 


of their said." 


"A much then you make all her 

somether. Hower their centing 

about 

this, and I won't give it in 

himself. 

I had not come at any see it will that there she chile no one that him. 


"The distiction with you all.... It was 

a mone of the mind were starding to the simple to a mone. It to be to ser 
in the place," said Vronsky. 

"And a plais in 

his face, has alled in the consess on at they to gan in the sint 

at as that 

he would not be and t 


可 以 看 到 ， 模 型 能 够 生成 一 些 有 意义 的 单词 和 一 些 无 意义 的 单词 。 为 了 获得 更 多 结 
果 ， 我 们 可 以 运行 模型 更 长 的 时 间 ， 并 尝试 调整 超 参数 。 
























































10.4 m 

















本 章 学 习 了 RNN 及 其 工作 原理 ， 以 及 为 什么 它们 变 得 如 此 重要 。 我 们 在 有 趣 的 小 
说 数据 集 上 训练 了 一 个 RNN 字符 级 语言 模型 ， 并 看 到 了 RNN 的 结果 。 值 得 期 待 的 是 ， 
RNN 会 有 更 多 的 创新 ， 我 也 相信 RNN 将 成 为 智能 系统 中 普遍 且 关 键 的 组 成 部 分 。 
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第 11 章 
表示 学 习 一 一 实现 词 其 入 


机 器 学 习 是 一 门 主要 基于 统计 学 和 线性 代数 的 科学 。 在 多 数 机 器 学 习 或 由 于 反 向 传 























播 的 深度 学 习 架 构 中 ， 运 用 矩阵 运算 是 十 分 常见 的 。 这 是 深度 学 习 或 者 通常 的 机 器 学 习 
日 都 相互 矛盾 ， 如 机 器 翻译 、 情 





只 接受 实数 值 作为 输入 的 主要 原因 。 这 个 情况 与 很 多 应 月 
































感 分 析 等 ， 它 们 都 以 文本 作为 输入 。 所 以 为 了 在 这 些 应 月 
输入 转换 为 深度 学 习 接受 的 格式 。 





日 中 用 到 深度 学 习 ， 我 们 需要 把 

















本 章 将 介绍 表示 学 习 这 一 领域 ， 它 是 从 文本 中 学 习 一 个 实数 表示 同时 保留 
的 语义 信息 的 一 种 方法 。 例 如 ，love 的 表示 应 该 和 adore 的 表示 十 分 接近 ， 因 














应 用 情景 十 分 相似 。 
本 章 包 含 以 下 主题 。 
e 表示 学 习 简 介 。 


€ Word2Vec. 

















€ skip-gram 架构 的 一 个 实际 例子 。 


@ 实现 skip-gram Word2Vec。 


11.1 表示 学 习 简 介 


到 目前 为 止 ， 本 书 讲 到 的 所 有 机 器 学 习 算法 或 架构 都 要 求 输入 是 实数 或 者 实数 矩阵 ， 
这 是 机 器 学 习 共 有 的 一 个 主题 。 例 如 ， 在 卷 积 神经 网 络 里 ， 我 们 需要 以 输入 图 
方式 编码 文本 ， 
值 ， 需 要 用 到 一 














像素 值 作为 模型 输入 。 在 这 一 部 分 , 我 们 将 要 处 理 文本 ， 


















































因此 需要 用 某 











并 产生 可 以 输入 机 器 学 习 算 法 里 的 实数 值 。 为 了 把 输入 文本 编码 为 实数 




















真实 文本 
为 它们 的 








像 的 原始 




















11.2. Word2Vec 


门 中 间 学 科 ， 该 学 科 叫 作 自 然 语 言 处 理 〈Natural Language Processing, NLP). 

之 前 提 到 过 像 情 感 分 析 这 种 给 机 器 学 习 模型 提供 文本 的 流程 ， 这 可 能 是 有 问题 且 不 
可 行 的 ， 因 为 不 能 把 反 向 传播 或 者 其 他 诸如 点 积 的 运算 应 用 在 输入 上 ， 原 因 在 于 它 是 字 
符 串 。 因 此 ， 我 们 需要 NLP 机 制 的 帮助 ， 它 将 帮助 构建 文本 的 中 间 表 示 。 该 中 间 表 示 携 
带 和 文本 一 样 的 信息 ， 并 且 可 以 输入 机 器 学 习 模型 中 。 

我 们 需要 把 输入 文本 里 的 每 个 单词 或 标志 转换 为 一 个 实数 向 量 。 这 些 疝 量 如 果 不 携 
带 原 始 输 入 的 模型 、 人 信息、 意义 和 语义 ， 那 么 它们 将 是 没有 用 处 的 。 例 如 ， 在 真实 的 文 
本 中 ， 单 词 love 和 adore 是 十 分 相似 的 ， 并 具有 相同 的 意思 。 开 发 人 员 需 要 能 够 表示 它 
们 之 间距 离 很 近 并 且 位 于 同一 向 量 空 间 中 的 实 值 向 量 。 因 此 ， 这 两 个 单词 以 及 与 它们 不 
相似 的 另 一 个 单词 的 向 量 表示 如 图 11.1 所 示 。 
很 多 技术 可 以 用 于 完成 这 项 任务 ， 这 类 技术 称 为 蓄 入 
( embedding )， 这 类 技术 把 文本 岁入 男 一 个 实数 癌 量 空间 中 。 ^? 
正如 后 续 将 看 到 的 ， 向 量 空间 事实 上 是 十 分 有 趣 的， 因为 
你 会 发 现 , 可 以 从 其 他 与 之 类 似 的 单词 中 推导 出 一 个 单词 的 向 
量 表示 ， 甚 至 可 以 在 这 个 空间 上 做 一 些 几 何 操作 。 图 11.1 单词 的 向 量 表示 
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11.2 Word2Vec 














Word2Vec 是 NLP 领域 里 常用 的 嵌入 技术 之 一 。 这 个 模型 会 通过 查看 输入 单词 出 现 
的 上 下 文 信息 来 从 输入 中 构建 实数 向 量 。 因 此 我 们 会 发 现 相似 的 单词 会 在 相似 的 上 下 文 
中 提 到 ， 因 此 模型 会 学 到 ， 那 两 个 单词 在 特定 的 嵌入 空间 里 应 该 距离 很 近 。 


从 图 11.2 中 的 语句 ， 模 型 会 学 到 : 单词 love 和 单词 adore 有 相似 的 上 下 文 ， 并 且 在 




































































ecu be eee 最 终 的 向 量 空间 里 应 该 距离 很 近 。like 的 上 下 文 可 能 与 
My friends told me that they love popcorn. love 类 似 但 是 它 不 像 接近 love 那样 接近 adore。 
M relatives the baby's cute face. Word2 Vec 模 型 也 依赖 输入 句 BE 的 语义 特 征 o 例 





l his sense of humor. 


Jil, adore 和 love 两 个 单词 都 主要 用 在 积极 的 上 下 文 
中 ， 并 且 通 常 位 于 名 词 或 名 词 短 语 前 。 同 时 ， 模 型 也 
会 学 到 这 两 个 单词 有 些 地 方 相似 ， 并 且 它 很 有 可 能 将 这 两 个 单词 的 向 量 表示 放 在 相似 
的 上 下 文中 。 所 以 ， 句 子 的 结构 能 够 透露 给 Word2Vec 模型 很 多 关于 相似 单词 的 信息 。 


在 实践 中 ， 开 发 人 员 把 大 型 的 文本 语料库 输入 Word2Vec 模型 。 模 型 会 学 习 为 相似 











图 11.2 ”情感 语句 的 样本 
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的 单词 产生 相似 的 向 量 ， 并 且 对 文本 中 的 每 一 个 单词 都 会 这 么 做 。 


所 有 这 些 单词 的 向 量 会 合并 在 一 起 ， 最 后 的 输出 会 是 一 个 内 入 矩阵 ， 其 中 ， 每 一 
行 表示 一 个 特定 单词 的 实数 向 量 表 示 。Word2Vec 模型 流程 的 示例 如 图 11.3 所 示 。 






























































英文 维基 百科 语料库 BRA FEB 





D 维 向 量 
aardvark 国 册 二 二 二 二 二 而 二 二 而 二 十 二 | 
apple [000000000000000] 


= Word2Vec = 


z00 (@©00000000000000) 

















图 11.3 Word2Vec 模型 流程 的 例子 


模型 最 后 的 输出 是 一 个 训练 语料库 中 所 有 单词 的 风 入 和 矩阵。 通常 ， 好 的 嵌入 矩阵 可 
以 包含 上 百 万 个 实数 向 量 。 

Word2Vec 模型 用 一 个 窗口 来 扫描 句子 , 然后 根据 上 下 文 信息 预测 窗口 中 间 的 单词 的 
向 量 。Word2Vec 每 次 会 扫描 一 个 句子 。 和 所 有 的 机 器 学 习 技 术 相 似 ， 我 们 需要 为 
Word2Vec 模型 定义 一 个 损失 函数 和 它 对 应 的 优化 准则 , 它们 将 使 得 模型 能 够 为 每 个 单词 
产生 实数 向 量 ， 并 且 基 于 单词 的 上 下 文 信息 把 向 量 互相 关联 。 


































































































构建 Word2Vec 模型 
本 节 将 讨论 关于 如 何 构建 Word2Vec 模型 的 一 些 深层 细节 。 正 如 前 面 提 到 的 ， 最 后 的 目 
标 是 有 一 个 训练 好 的 模型 ， 它 能 够 为 输入 的 文本 数据 产生 实数 向 量 表示 ， 这 也 称 为 词 寥 入 。 
在 模型 训练 过 程 中 ， 我 们 会 用 到 最 大 似 然 法 参见 维基 百科 )， 给 定 模 型 前 面 见 过 的 
单词 ， 这 里 用 hh 表示， 然后 最 大 化 输入 句子 中 下 一 个 单词 w 的 概率 。 
这 个 最 大 似 然 法 可 以 以 Softmax 函数 的 形式 给 出 。 
P(w, / h) =Softmax(score(w,, /)) 


exp{score(w,,/)} 
2. Word w' in Vocab exp {score(w’, h)} 


其 中 ，score 函数 计算 了 一 个 值 ， 它 表示 目标 单词 we 和 上 下 文 A 的 兼容 性 。 会 在 输 
入 句子 上 训练 该 模型 ， 训 练 的 目的 是 最 大 化 这 些 训练 输入 数据 上 的 似 然 〈 使 用 对 数 似 然 









































































































































$$$ ywy 


11.2 Word2Vec 





是 为 了 数学 上 的 简便 ， 所 以 使 用 了 对 数 来 推导 )。 





Jw, = log P(w, |A) 


= score(w,,/) 一 oe Y exp {score(w’, P») 


Word w' in Vocab 


ATLL, ML RAWA 法 会 尝试 最 大 化 上 面 的 等 式 ， 从 而 得 到 一 个 概率 语言 模型 ， 
如 图 11.4 所 示 。 这 里 的 计算 是 十 分 复杂 的 ， 国人 需要 用 score 函数 计算 词汇 表 V 中 的 每 
一 个 单词 w 在 该 模型 对 应 的 当前 上 下 文中 的 概率 。 这 种 计算 在 每 一 个 训练 步 又 里 都 要 









































因为 构建 概率 语言 模型 所 需 的 计算 非常 复杂 ， 所 以 开发 人 员 偏向 于 用 计算 相对 不 复杂 
的 其 他 技术 来 实现 ， 如 连续 词 袋 ( Continuous Bag-of-Words, CBOW ) 和 skip-gram 模型 。 


训练 这 些 模型 以 构建 一 个 带 logistic 回归 的 二 分 类 任务 ， 用 于 区 分 真实 的 目标 单词 
. h 噪声 或 者 假想 单词 W， 这 些 是 在 同一 上 下 文中 完成 的 。 图 11.5 用 CBOW 技术 简化 
了 这 文 个 想法 。 













































































Softmax 分 类 器 
噪声 分 类 器 
隐藏 层 
隐藏 层 
映射 层 the cat sits on the 
ty 
上 下 文 /历史 h 目标 w 映射 层 
图 11.4 ”概率 语言 模型 的 通常 架构 图 11.5 skip-gram 模型 的 典型 架构 



























































图 11.6 展示 了 可 以 用 于 构架 Word2Vec 模型 的 两 个 架构 。 
更 加 具体 地 说 ， 这 些 技 术 的 目标 是 最 大 化 下 面 的 式 子 。 




















Jug = logQ,(D -1|w, A) +k | as [log Q, (D 2 0| w,A)] 


noise 








其 中 ， =O,(D=1|w,,h) 是 模型 基于 单词 w 和 数据 集 D 中 上 下 文 h 的 二 值 logistic 回 
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归 概 率 ， 它 是 用 0 TIT SEY, ROMANS SHIH As w 是 假想 单词 或 者 
它 可 以 从 一 个 噪声 概率 分 布 中 产生 ， 例 如 ， 训 练 的 输入 例子 的 一 元 分 布 。 





噪声 单词 ， 














输入 投影 输出 输入 投影 输出 
w(t-2) \ A w(t-2) 
x / 
/ 
w(t-1) w(t-1) 
\ 求 和 / ral 
x / I 
———— w(t) w(t) — i 
A Lt t=] -一 人 
P A S 
wen C a \ wH) 
/ \ 
w(t+2) / N w(tt2) 
CBOW Skip-gram 








图 11.6 Word2Vec 模型 的 不 同 架构 



































总 的 来 说 ， 这 些 模型 的 目标 就 是 区 分 真实 输入 和 假想 输入 ， 因 此 会 为 真实 单词 分 配 
较 高 的 概率 ， 而 为 假想 单词 或 者 噪声 单词 分 配 较 低 的 概率 。 

如 果 模 型 为 真实 单词 分 配 较 高 的 概率 ， 而 为 噪声 单词 分 配 较 低 的 概率 ， 目 标 函 数 就 
最 大 化 了 。 



























































从 技术 上 讲 , 为 真实 单词 分 配 高 概率 的 过 程 称 为 负 抽样 ( negative sampling, 
详 见 nips 网 站 ), 使 用 此 损失 函数 有 良好 的 数学 动机 : 它 提出 的 更 新 近似 于 
限制 条 件 中 softmax 函数 的 更 新 。 从 计算 上 讲 ， 它 特别 有 吸引 力 ， 因 为 计 
算 损失 子 数 现 在 只 能 根据 选择 的 噪声 单词 的 数量 (上) 来 缩放 ， 而 不 是 词汇 

aD 表 中 的 所 有 词 ( 信 )。 这 使 得 训练 更 快 。 实 际 上 ， 这 里 将 会 使 用 十 分 相似 的 
噪声 对 比 估计 ( noise-contrastive estimation, NCE) 损失 (关于 NCE, if 
JL nips 网 站 )， 它 在 TensorFlow 里 有 一 个 十 分 方便 的 辅助 函数 一 一 
t£nn.nce loss(). 


11.3 skip-gram 架构 的 一 个 实际 例子 





























现在 介绍 一 个 实际 的 例子 ， 并 看 看 在 这 种 情况 下 skip-gram 模型 是 如 何 工作 的 。 


the quick brown fox jumped over the lazy dog 


—— ywy 


11.3 skip-gram 架构 的 一 个 实际 例子 











首先 ， 需 要 构建 一 个 包含 单词 和 对 应 上 下 文 的 数据 集 。 怎 样 定义 背景 取决 于 开发 人 
员 ， 但 必须 合理 。 我 们 将 在 目标 单词 周围 放 一 个 窗口 ， 并 且 从 单词 的 右边 和 左边 各 取 一 
个 单词 。 

通过 这 种 上 下 文 技术 ， 我 们 最 后 会 得 到 下 列 单词 和 对 应 上 下 文 的 集合 。 






























































([the, brown], quick), ([quick, fox], brown), ([brown, jumped], fox), ... 


生成 的 词语 和 它们 对 应 的 上 下 文 会 用 一 对 (context, target) 表示 。skip-gram 模型 的 
想法 和 CBOW 的 想法 相反 。skip-gram 模型 将 会 根据 目标 单词 预测 它 的 背景 。 例 如 ， 考 
虑 上 面 的 第 一 对 ，skip-gram 模型 会 尝试 从 目标 单词 quick 预测 the 和 brown 等 。 所 以 数 
据 集 也 可 以 重 写成 如 下 形式 。 




































































(quick, the), (quick, brown), (brown, quick), (brown, fox), ... 

现在 ， 我们 已 经 有 了 输入 和 输出 对 。 

下 面 可 以 尝试 模仿 第 1 步 的 训练 过 程 。skip-gram 模型 会 接受 第 一 个 训练 样本 , 其 中 ， 
输入 是 单词 quick， 而 目标 输出 是 单词 the。 接 着 ， 我 们 还 需要 构造 噪声 输入 ， 并 随机 地 
从 输入 数据 的 一 元 模型 中 选择 一 个 单词 。 为 了 方便 ， 噪 声 千 量 的 大 小 取 为 1。 例 如 ， 可 
以 选择 单词 sheep 作为 噪声 。 

现在 ， 继 续 计 算 真实 配对 和 噪声 配对 的 损失 。 




























































































J, = logQ,(D = 1| the, quick) + log(Q, (D = 0 | sheep, quick)) 

















这 里 的 目标 是 更 新 9 参数 来 改善 之 前 的 目标 函数 。 ES, 可 以 使 用 梯度 来 做 这 件 事 ， 
因此 需要 计算 损失 关于 目标 函数 参数 0 的 梯度 ， 这 个 梯度 将 会 表示 为 Z Jao . 
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在 训练 过 程 后 ， 可 以 基于 降 维 后 的 实数 向 量 表示 方式 来 可 视 化 结果 。 读 者 将 会 发 
这 个 向 量 空间 十 分 有 趣 ， 我 们 可 以 使 用 它 做 很 多 有 趣 的 事情 。 例 如 ， 可 以 在 这 个 空间 
做 类 比 ， 如 king 之 于 queen 就 像 man 之 于 woman， 甚 至 还 可 以 通过 从 queen 向 量 减 
king 向 量 再 加 上 man 向 量 得 到 woman 向 量 ， 这 个 结果 将 会 和 实际 学 习 的 woman 向 量 
分 接近 ， 如 图 11.7 所 示 。 读 者 还 可 以 在 这 个 空间 里 学 习 几 何 知识 。 

前 面 的 例子 给 出 了 这 些 向 量 背后 很 好 且 直 观 的 感受 ， 以 及 它们 是 如 何在 类 似 机 器 翻 
译 或 词性 Cpart-of-speech, POS) 标注 等 NLP 应 用 里 起 到 作用 。 
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降 维 法 可 视 化 学 习 的 向 量 在 二 
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YE f fÓ skip-gram 模型 
skip-gram 把 词语 编码 成 带 
架构 ， 我 们 将 得 到 学 习 另 一 种 表示 的 过 程 丸 

ux 


文本 是 许多 类 似 机 器 翻译 、 情 感 分 析 、 





























如 何 工 作 的 数学 细节 
某 种 性 质 的 实数 向 量 ( 因 此 称 为 Word2Vec )。 























[ 何 工 作 的 线索 。 
文本 语音 转换 系统 等 


自然 语言 处 理应 


维 空间 上 的 投影 


节 之 后 ， 接 下 来 我 们 实现 skip-gram。 


通过 实现 这 个 









































输入 。 因 此 ， 为 文本 学 习 一 个 实数 表示 可 以 
BU i42 
引 全 为 零 的 向 量 。 
发 人 员 有 大 量 不 同 的 单词 , 例如 ,可 能 
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帮助 开发 人 员 
了 名 为 独 热 编码 的 技术 ， 该 技术 产生 一 个 除了 这 个 
为 什么 这 里 不 用 它 呢 ? D 
有 50 000 


用 不 同 





的 深度 学 习 技术 解决 任务 。 




















n 
Aye 


量 所 表示 单 














































































































为 独 热 编码 是 一 个 十 分 低 效 的 技术 ， 











词 的 索引 外 


\ A 


通常 开 
































个 单词 , 那么 使 用 独 热 向 量 就 会 产生 一 个 其 中 有 : D 
49999 个 分 量 为 0、1 个 分 量 为 1 的 向 量 。 © PNE 
这 样 一 个 稀疏 的 输入 会 导致 巨大 的 计算 ya @ @ 
浪费 ， 原 因 是 我 们 会 在 神经 网 络 隐藏 层 中 做 cue CO) get 
和 矩阵 乘法 ， 如 图 11.8 所 示 。 (o) a 
正如 前 面 所 提 到 的 ， 使 用 独 热 编码 会 生 © 
成 一 个 十 分 稀疏 的 向 量 ， 特 别 是 当 拥 有 大 量 : 
要 编码 的 不 同 单词 的 时 候 。 图 11.8” 独 热 编码 将 导致 巨大 的 计算 浪费 
如 图 11.9 所 示 ， 当 使 用 这 个 独 热 向 量 乘 以 一 个 权重 矩阵 后 ， 输 出 就 会 仅仅 是 权重 抵 
阵 中 的 一 行 ， 该 行 就 是 独 热 向 量 中 不 为 零 的 那 一 个 值 与 权重 矩阵 第 4 行 相 乘 的 结果 。 
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为 了 避免 这 种 巨大 的 计算 浪费 ， 我 们 将 会 使 用 嵌入 技术 ， 也 就 是 一 个 带 能 入 权重 的 
全 连接 层 。 在 这 一 层 当 中 ， 我 们 会 避免 低 效 的 乘法 并 从 名 为 权重 矩阵 的 地 方 开始 查找 由 
入 层 的 嵌入 权重 。 

比 起 因 计 算 产 生 的 浪费 , 我 们 更 倾向 于 使 用 权重 来 查找 权重 矩阵 从 而 得 到 嵌入 权重 。 
首先 ， 需 要 实现 这 个 查找 。 为 此 ， 要 把 所 有 的 输入 单词 编码 为 整数 ， 如 图 11.10 所 示 。 
然后 ， 找 到 这 个 单词 的 对 应 值 ， 这 里 将 它 的 整数 表示 作为 权重 矩阵 里 的 行 数 。 寻 找 某 个 
特定 词语 的 对 应 和 能 入 值 的 过 程 称 为 能 入 查找 ( embedding lookup )。 正 如 前 面 所 提 到 的 ， 
和 能 入 层 会 是 一 个 全 连接 层 ， 其 中 ， 单 元 的 个 数 表示 嵌入 维度 。 















































































































































100 个 隐藏 单元 ， 
_ RABE _ 
水 
标记 化 
|10 000 
heart : 958 | 个 单词 
[8 2 19 958 | 
6540 y 
(00010]x|7162|-2[13 5 8 
13558 
[0 49 1 查找 表 
图 11.9 用 隐 层 权重 矩阵 乘 以 图 11.10 标记 化 的 查找 表 























几乎 全 为 零 的 独 热 向 量 的 结果 











可 以 看 到 ， 这 个 过 程 是 非常 直观 且 简 单 的 ， 只 需要 依照 以 下 步 又 进行 即 可 。 
CD 定义 查找 表 ， 并 将 它 看 作 一 个 权重 矩阵 。 
(2) 将 嵌入 层 定义 为 一 个 全 连接 隐藏 层 ， 该 层 带 有 特定 数量 的 
(3) 使 用 权重 矩阵 查找 来 替代 不 需要 计算 的 矩阵 乘法 。 
(4) 像 所 有 权重 矩阵 一 样 训练 查找 表 。 
正如 前 面 提 到 的 ， 本 节 将 构建 一 个 skip-gram Word2Vec 模型 ， 它 是 学 习 单词 表示 的 
有 效 方法 ， 同 时 还 能 保留 单词 拥有 的 语义 信息 。 

现在 ， 我 们 继续 用 skip-gram 架构 来 构建 一 个 Word2Vec 模型 ， 已 证 明 它 比 其 他 的 架 
构 效 果 更 好 。 
11.4.1 数据 分 析 与 预 处 理 

本 节 将 定义 一 些 辅 助 函 数 ， 它 们 有 助 于 构建 一 个 好 的 Word2Vec 模型 。 为 了 实现 这 
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个 目标 ， 我 们 将 会 用 到 一 个 净化 版 的 维基 百科 【〈 详 见 mattmahoney 网 站 )。 


现在 ， 从 为 该 实现 导入 所 需要 的 库 开 始 。 





#importing the required packages for this implementation 
import numpy as np 
import tensorflow as tf 


#Packages for downloading the dataset 
from urllib.request import urlretrieve 
from os.path import isfile, isdir 

from tqdm import tqdm 

import zipfile 


#packages for data preprocessing 
import re 


from collections import Counter 





import random 


接 下 来 ， 定 义 一 个 类 ， 该 类 用 来 下 载 数据 集 ( 如 果 你 之 前 没有 下 载 过 它 )。 


























# In this implementation we will use a cleaned up version of Wikipedia 


from Matt Mahoney. 


# So we will define a helper class that will helps to download the dataset 


wiki_dataset_folder_path = 'wikipedia_data' 





wiki_dataset_filename = 'text8.zip' 
wiki_dataset_name = 'Text8 Dataset' 


class DLProgress (tqdm): 
last block = 0 


def hook(self, block num-1, block size-1, total size-None): 
self.total = total size 
self.update((block num - self.last block) * block size) 
self.last block = block num 
f Cheking if the file is not already downloaded 





if not isfile(wiki dataset filename): 
with DLProgress(unit-'B', unit scale-True, miniters=1, 
desc-wiki dataset name) as pbar: 





urlretrieve( 
'http://mattmahoney.net/dc/text8.zip', 
wiki dataset filename, 
pbar.hook) 
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# Checking if the data is already extracted if not extract it 


if not isdir(wiki dataset folder path): 


with zipfile.ZipFile(wiki dataset filename) 


as zip ref: 


zip ref.extractall(wiki dataset folder path) 


with open('wikipedia data/text8') 


as f: 


cleaned wikipedia text = f.read() 


输出 如 下 。 


Text8 Dataset: 3 








可 以 看 看 这 个 数据 全 





1.4MB [00:39, 


TE 


的 前 100 个 字符 。 


cleaned wikipedia text[0:100] 


794kB/s] 


' anarchism originated as a term of abuse first used against early working 


class radicals including t' 


接 下 来 ， 我 们 将 对 文本 进行 预 处 理 


























， 因 此 
































def preprocess text(input text): 


EUH 


Tfj NE 


























义 辅助 函数 。 该 辅助 函数 将 有 助 于 











把 诸如 标点 符号 等 特殊 字符 蔡 换 为 已 知 的 标记 。 同 时 ， 为 了 降低 输入 文本 
发 人 员 可 能 想 移 除 文本 中 不 常 出 现 的 单词 。 











的 噪声 ， 开 


# Replace punctuation with some special tokens so we can use them 











in our model 
input_text = 
input_text = 
input_text = 
input text = 
input text = 
input text = 
input text - 
input text = 
input text = 
input text - 
input text = 
input text = 





text words - 


# neglecting 
text word cou 


inpu 


inpu 
inpu 
inpu 
inpu 
inpu 
inpu 
inpu 
inpu 
inpu 
inpu 
inpu 
inpu 
all 


nts 




















t text.lower() 
t text.replace 
t text.replace 
t text.replace 
t text.replace 
t text.replace 
t text.replace 
t text.replace 
t text.replace 
t text.replace 
t text.replace 
t text.replace 
t text.split() 
the words 


' «PERIOD? ') 

' «COMMA» ') 

' «QUOTATION MARK» 
' <SEMICOLON> ') 
Al 
' «QUESTION | 
EFT PAREN» 
' «RIGHT PAREN» 
HYPHENS> ') 
' «QUESTION MARK» 
' «COLON? ') 


Ej 








[ARK> 
") 
2) 



































Counter(text words) 


ATION MARK» 
") 


E) 


a) 


") 


that have five occurrences of fewer 
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trimmed words = [word for word in text words if text word counts 
[word] » 5] 


return trimmed words 


在 输入 文本 上 调用 这 个 函数 ， 并 查看 输出 结果 。 

















preprocessed words = preprocess text(cleaned wikipedia text) 





print(preprocessed words[:30]) 


输出 如 下 。 





['anarchism', 'originated', 'as', 'a', 'term', 'of', 'abuse', 'first', 
'used', 'against', 'early', 'working', 'class', 'radicals', ‘including', 
'the', 'diggers', 'of', 'the', 'english', 'revolution', 'and', 'the', 
'sans', 'culottes', 'of', 'the', 'french', 'revolution', 'whilst'] 


下 面 查看 预 处 理 版 本 的 文本 中 有 多 少 单词 和 多 少 不 同 的 单词 。 





























print("Total number of words in the text: 





}". format (len (preprocessed_words) ) ) 











print ("Total number of unique words in the text: 
}". format (len (set (preprocessed_words) ) ) ) 
输出 如 下 。 


Total number of words in the text: 16680599 
Total number of unique words in the text: 63641 


在 这 里 ， 通 过 创建 字典 来 将 单词 转换 为 整数 ， 相 反 ， 也 将 整数 转换 为 单词 。 整 数 按 频 
率 降 序 分 配 ， 因 此 把 整数 0 分 配给 最 常用 的 单词 Che), $E 1 分 配给 下 一 个 最 常用 的 单词 ， 
依次 类 推 。 把 单词 转换 为 整数 并 存储 在 列表 int. words 中 。 

如 本 节 前 面 所 述 ， 读 者 需要 使 用 单词 的 整数 索引 在 权重 算 阵 中 查找 它们 的 值 ， 因 此 
将 单词 转换 为 整数 ， 同 时 将 整数 转换 为 单词 。 这 将 有 助 于 读者 查找 单词 ， 同 时 也 可 以 获 
得 特定 索引 处 的 确切 单词 。 例 如 ， 输 入 文本 中 重复 次 数 最 多 的 单词 将 在 位 置 0 处 索引 
然后 是 重复 次 数 第 二 多 的 单词 ， 依 次 类 推 。 
因此 ， 这 里 定义 一 个 函数 来 创建 这 个 查找 表 。 











































































































































































































def create lookuptables(input words): 


"mmm 


Creating lookup tables for vocan 
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Function arguments: 
param words: Input list of words 


woe 





input word counts = Counter(input words) 

Sorted vocab = sorted(input word counts, key-input word counts.get, 
reverse-True) 

integer to vocab = (ii: word for ii, word in enumerate(sorted_vocab) } 
vocab to integer = (word: ii for ii, word in integer to vocab.items()) 


# returning A tuple of dicts 
return vocab_to_integer, integer_to_vocab 


现在 ， 调 用 定义 的 函数 来 创建 查找 表 。 




















vocab_to_integer, integer_to_vocab = 





create_lookuptables (preprocessed_words) 
integer_words = [vocab_to_integer[word] for word in preprocessed_words] 


为 了 构建 一 个 更 加 精确 的 模型 ， 可 以 移 除 对 上 下 文 影响 不 大 的 单词 ， 如 of. for. the 












































等 。 该 行为 实际 上 证 明了 开发 人 员 可 以 在 丢弃 这 类 单词 的 同时 构建 更 准确 的 模型 。 从 上 
下 文中 删除 与 上 下 文 无 关 的 单词 的 过 程 称 为 子 采样 。 为 了 定义 单词 丢弃 的 一 般 机 制 ， 
Mikolov 引入 了 一 个 函数 来 计算 某 个 单词 的 丢弃 概率， 具体 如 下 。 
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fw) 





P(w,) =1- 














RP, ceEA FMB, f(w,) 是 输入 数据 集中 茶 个 特定 目标 单词 w 的 频率 。 















































接 下 来 ， 我 们 将 实现 一 个 辅助 函数 来 计算 数据 集中 每 个 单词 的 丢弃 概率 。 











# removing context-irrelevant words threshold 
word_threshold = le-5 





word counts = Counter(integer words) 
total number words = len(integer words) 


fCalculating the freqs for the words 
frequencies = (word: count/total number words for word, count in word. 
counts.items()] 


#Calculating the discard probability 
prob drop = (word: 1 - np.sqrt(word threshold/frequencies[word]) for 
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word in word counts] 
training words = [word for word in integer words if random.random() < 
(1 - prob drop[word])] 


现在 ， 我 们 就 有 了 一 个 筛选 后 的 干净 的 输入 文本 。 
前 面 提 到 过 ，skip-gram 架构 在 生成 真实 数值 表示 时 要 考虑 目标 单词 的 上 下 文 ， 因此 






























































ef 

















E 目 标 单词 周围 定义 了 一 个 大 小 为 C 的 窗口 。 


















































比 起 公平 地 对 待 所 有 上 下 文 单词 , 我 们 更 倾向 于 为 距离 目标 单词 较 远 的 单词 分 配 较 少 














的 权重 。 例 如 ， 如 果 选 择 窗口 的 大 小 C=4， 那 么 我 们 将 在 1 一 C 中 选择 一 个 随机 数 L， 然 









































后 从 当前 单词 的 历史 版 本 和 未 来 版 本 中 采样 工 个 单词 。 有 关 此 问题 的 更 多 信息 ， 请 参考 











Mikolov 等 人 的 论文 “Efficient Estimation of Word Representations in Vector Space”. 


接 下 来 ， 定 义 这 个 函数 。 


# Defining a function that returns the words around specific index in 
a specific window 
def get target(input words, ind, context window size-5): 


fselecting random number to be used for genearting words form history 





and feature of the current word 

rnd num = np.random.randint(1, context window size-*l) 

start ind = ind - rnd num if (ind - rnd num) > 0 else 0 

stop ind = ind + rnd num 

target words = set (input words[start ind:ind] + input words[ind-*1: 
stop ind-*1]) 

return list(target words) 


同时 ， 定 义 一 个 生成 函数 来 从 训练 样本 





H 


T 








生成 一 个 随机 批 次 并 获得 该 批 次 中 每 个 单 














词 的 上 下 文 单词 。 


#Defining a function for generating word batches as a tuple (inputs, 
targets) 
def generate random batches(input words, train batch size, 
context window size-5): 
num batches = len(input words)//train batch size 
# working on only only full batches 
input words = input words[:num batches*train batch size] 
for ind in range(0, len(input words), train batch size): 





input vals, target - [], [] 
input batch = input words[ind:ind-*train batch size] 
#Getting the context for each word 
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for ii in range(len(input_batch) ): 
batch input vals = input batch[ii] 
batch target = get target(input batch, ii, context window size) 
target.extend(batch target) 
input vals.extend([batch input vals]*len(batch target)) 
yield input vals, target 


11.4. ”构建 模型 
接 下 来 ， 我 们 将 用 图 11.11 所 示 架 构 来 构建 计算 加 
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图 11.11 模型 架构 


所 以 ， 正 如 前 面 提 到 的 ， 我 们 将 会 使 用 艇 入 层 来 尝试 学 习 这 些 单词 的 一 个 特殊 实 
值 表 示 。 这 样 ， 单 词 将 作为 一 个 独 热 向 量 传送 。 我 们 的 想法 是 训练 这 个 网 络 来 构建 权 


从 创建 模型 的 输入 开始 。 




















Url 








train graph = tf.Graph () 
#defining the inputs placeholders of the model 


with train_graph.as_default(): 
inputs values = tf.placeholder(tf.int32, [None], name-'inputs values') 
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labels values = tf.placeholder(tf.int32, [None, None], 
name='labels values!) 


BEREICH A FERED 的 形状 如 下 。 


num words X num hidden neurons 


我 们 不 必 自 己 实现 查找 函数 , 因为 在 TensorFlow 中 已 经 可 以 使 用 tfnn.embedding lookup() 
了 。 该 函数 将 使 用 单词 的 整数 编码 并 在 权重 矩阵 中 定位 单词 对 应 的 行 。 


将 从 一 个 均匀 分 布 随机 初始 化 权重 矩阵 。 


num vocab = len(integer_to_vocab) 










































































num embedding = 300 
with train_graph.as_default(): 

embedding_layer = tf.Variable(tf.random_uniform((num_vocab, num_ 
embedding), -1, 1)) 

# Next, we are going to use tf.nn.embedding lookup function to get 
the output of the hidden layer 





mbed tensors = tf.nn.embedding lookup(embedding layer, inputs values) 

TR ETA TE BN PU HAA BE JE TIRA. RIIE ELS FH ff ERI 

用 一 小 部 分 不 正确 的 单词 来 更 新 正确 单词 的 权 习 
同样 , 我 们 不 需要 自己 实现 这 个 函数 ,因为 TensorFlow 里 面 已 经 有 了 tfinn.sampled_ 


softmax loss. 
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方法 ， 它 只 使 
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# Number of negative labels to sample 
num sampled = 100 


with train graph.as default(): 
# create softmax weights and biases 
softmax weights = tf.Variable(tf.truncated normal((num vocab, num. 
embedding))) 
softmax biases = tf.Variable(tf.zeros(num vocab), name="softmax bias") 
f Calculating the model loss using negative sampling 
model loss = tf.nn.sampled softmax loss( 
weights-softmax weights, 
biases-softmax biases, 
labels-labels values, 
inputs-embed tensors, 
num sampled-num sampled, 


num classes-num vocab) 
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model cost = tf.reduce mean (model loss) 
model optimizer = tf.train.AdamOptimizer().minimize (model cost) 


为 了 验证 模型 ， 这 里 将 采样 一 些 频繁 出 现 的 单词 以 及 一 些 不 常见 的 单词 ， 并 尝试 根 
据 skip-gram 架构 习 得 的 表示 来 输出 最 接近 的 单词 集 。 


with train_graph.as_default(): 














# set of random words for evaluating similarity on 
valid_num_words = 16 

valid_window = 100 

# pick 8 samples from (0,100) and (1000,1100) each ranges. lower id 





implies more frequent 

valid samples = np.array(random.sample (range (valid window), valid. 
num words//2)) 

valid samples = np.append(valid samples, 
random. sample (range (1000,1000-*valid window), 
valid num words//2)) 

valid dataset samples = tf.constant(valid samples, dtype-tf.int32) 





# Calculating the cosine distance 
norm = tf.sqrt(tf.reduce sum(tf.square(embedding layer), 1, keep 


dims-True)) 





normalized embed = embedding layer / norm 

valid embedding = tf.nn.embedding lookup (normalized embed, valid. 
dataset samples) 

cosine similarity = tf.matmul(valid embedding, 


tf.transpose (normalized embed)) 


现在 ， 我 们 有 了 模型 的 所 有 细节 ， 可 以 准备 开始 训练 了 。 


11.4.3 ”训练 模型 
继续 往 前 进行 并 开始 训练 过 程 。 











num_epochs = 10 
train batch size = 1000 
contextual window size - 10 


with train graph.as default(): 
saver = tf.train.Saver() 


with tf.Session(graph-train graph) as sess: 


iteration num = 1 


average loss = 0 
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#Initializing all the vairables 
sess.run(tf.global_variables initializer ()) 
for e in range(1, num epochs-*1): 
fGenerating random batch for training 
batches = generate random batches (training words, train batch 
Size, contextual window size) 
#Iterating through the batch samples 
for input vals, target in batches: 
Creating the feed dict 
feed dict = (inputs values: input vals, 
labels values: np.array(target)[:, None] } 
train loss, = sess.run([model cost, model optimizer], feed. 
dict-feed dict) 
commulating the loss 


average loss += train loss 





Printing out the results after 100 iteration 
if iteration num $ 100 == 0: 


= 


print ("Epoch Number {}/{}".format(e, num_epochs), 





"Iteration Number: {}".format (iteration num), 
"Avg. Training loss: 
{:.4f}".format (average_loss/100) ) 





average_loss = 0 
if iteration num % 1000 == 0: 


## Using cosine similarity to get the nearest words to 





a word 
similarity = cosine similarity.eval() 
for i in range(valid num words): 
valid word = integer to vocab[valid samples[i]] 
# number of nearest neighbors 
top_k = 8 
nearest words = (-similarity[i, :]).argsort() [l:top_ 
k+1] 
msg = 'The nearest to $s:' $ valid word 
for k in range(top k): 
similar word = integer to vocab[nearest words[k]] 
msg = '$s $s,' $ (msg, similar word) 
print (msg) 
iteration num += 1 
save path = saver.save(sess, 





"Ccheckpoints/cleaned wikipedia version.ckpt") 





mbed mat = sess.run(normalized embed) 
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在 运行 了 10 次 前 面 的 代码 段 后 ， 将 会 得 到 以 下 输出 。 

Epoch Number 10/10 Iteration Number: 43100 Avg. Training loss: 5.0380 
Epoch Number 10/10 Iteration Number: 43200 Avg. Training loss: 4.9619 
Epoch Number 10/10 Iteration Number: 43300 Avg. Training loss: 4.9463 
Epoch Number 10/10 Iteration Number: 43400 Avg. Training loss: 4.9728 
Epoch Number 10/10 Iteration Number: 43500 Avg. Training loss: 4.9872 
Epoch Number 10/10 Iteration Number: 43600 Avg. Training loss: 5.0534 
Epoch Number 10/10 Iteration Number: 43700 Avg. Training loss: 4.8261 
Epoch Number 10/10 Iteration Number: 43800 Avg. Training loss: 4.8752 
Epoch Number 10/10 Iteration Number: 43900 Avg. Training loss: 4.9818 
Epoch Number 10/10 Iteration Number: 44000 Avg. Training loss: 4.9251 
The nearest to nin one, seven, zero, two, three, four, eight, five, 
The nearest to such: is, as, or, some, have, be, that, physical, 

The nearest to who: his, him, he, did, to, had, was, whom, 

The nearest to two: zero, one, three, seven, four, five, six, nine, 
The nearest to which: as, a, the, in, to, also, for, is, 

The nearest to seven: eight, one, three, five, four, six, zero, two, 
The nearest to american: actor, nine, singer, actress, musician, comedian, 
athlete, songwriter, 

The nearest to many: as, other, some, have, also, these, are, or, 

The nearest to powers: constitution, constitutional, formally, assembly, 
state, legislative, general, government, 

The nearest to question: questions, existence, whether, answer, truth, 
reality, notion, does, 

The nearest to channel: tv, television, broadcasts, broadcasting, radio, 
channels, broadcast, stations, 

The nearest to recorded: band, rock, studio, songs, album, song, 
recording, pop, 

The nearest to arts: art, school, alumni, schools, students, university, 
renowned, education, 

The nearest to orthodox: churches, orthodoxy, church, catholic, catholics, 
oriental, christianity, christians, 

The nearest to scale: scales, parts, important, note, between, its, see, 
measured, 

The nearest to mean: is, exactly, defined, denote, hence, are, meaning, 


example, 








Epoch Number 10/10 Iteration Number: 45100 Avg. Training loss: 4.8466 
Epoch Number 10/10 Iteration Number: 45200 Avg. Training loss: 4.8836 
Epoch Number 10/10 Iteration Number: 45300 Avg. Training loss: 4.9016 
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Epoch Number 10/10 Iteration Number: 45400 Avg. Training loss: 5.0218 
Epoch Number 10/10 Iteration Number: 45500 Avg. Training loss: 5.1409 
Epoch Number 10/10 Iteration Number: 45600 Avg. Training loss: 4.7864 
Epoch Number 10/10 Iteration Number: 45700 Avg. Training loss: 4.9312 
Epoch Number 10/10 Iteration Number: 45800 Avg. Training loss: 4.9097 
Epoch Number 10/10 Iteration Number: 45900 Avg. Training loss: 4.6924 
Epoch Number 10/10 Iteration Number: 46000 Avg. Training loss: 4.8999 
The nearest to nine: one, eight, seven, six, four, five, american, two, 
The nearest to such: can, example, examples, some, be, which, this, or, 
The nearest to who: him, his, himself, he, was, whom, men, said, 





he nearest to two: zero, five, three, four, six, one, seven, nin 


he nearest to which: to, is, a, the, that, it, and, with, 


"m 


he nearest to seven: one, six, eight, five, nine, four, three, two, 


"m 


he nearest to american: musician, actor, actress, nine, singer, 


politician, d, one, 


m 


he nearest to many: often, as, most, modern, such, and, widely, traditional, 


"m 


he nearest to powers: constitutional, formally, power, rule, exercised, 





parliamentary, constitution, control, 


3 


= 


he nearest to question: questions, what, answer, existence, prove, 


merely, true, statements, 


3 


= 


he nearest to channel: network, channels, broadcasts, stations, cable, 


broadcast, broadcasting, radio, 


"m 


he nearest to recorded: songs, band, song, rock, album, bands, music, 
studio, 
m 


he nearest to arts: art, school, martial, schools, students, styles, 


education, student, 


m 


he nearest to orthodox: orthodoxy, churches, church, christianity, 
christians, catholics, christian, oriental, 


"m 


he nearest to scale: scales, can, amounts, depends, tend, are, structural, 





fOr, 


m 








he nearest to mean: we, defined, is, exactly, equivalent, denote, number, 








above, 
poch Number 10/10 Iteration Number: 46100 Avg. Training loss: 4.8583 
poch Number 10/10 Iteration Number: 46200 Avg. Training loss: 4.8887 


从 输出 中 可 以 看 到 ， 网 络 在 某 种 程度 上 学 到 了 输入 单词 的 语义 上 有 用 的 表示 。 为 了 
更 清楚 地 了 解 杠 入 矩阵 ， 我 们 将 使 用 如 t-SNE 的 降 维 法 来 将 实 值 向 量 降低 到 2 维 ， 然 后 
将 它们 可 视 化 并 在 每 个 点 上 标记 对 应 的 单词 。 


num visualize words = 500 
tsne_obj = TSNE() 


ti 











ti 
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embedding_tsne 


tsne obj.fit transform(embedding matrix[:num visualize words, : 


14)) 
for ind in range (num visualize words): 
plt.scatter(*embedding tsne[ind, :], 
plt.annotate(integer to vocab[ind], 
1]), alpha=0.7) 


fig, ax = plt.subplots(figsize-(14, 


embedding tsne[ind, 


输出 结果 如 图 11.12 所 示 。 
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] ) 


color='steelblue') 


(embedding_tsne[ind, 0], 
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11.5 总 结 




















本 章 讲解 了 表示 学 习 的 概念 ， 以 及 为 什么 它 对 于 一 些 输 入 不 是 实 值 形式 的 深度 学 习 
或 机 器 学 习 是 很 有 用 的 。 此 外 ， 本 章 还 介绍 了 将 单词 转换 为 实 值 向 量 的 一 种 技术 一 一 
Word2Vec， 它 具有 十 分 有 趣 的 性 质 。 最 后 ， 本 章 使 用 skip-gram 架构 实现 了 Word2Vec 
模型 。 

接 下 来 ， 我 们 将 在 情感 分 析 示 例 中 看 到 这 些 习 得 的 表示 的 实际 用 法 ， 这 需要 将 输入 
文本 转换 为 实 值 向 量 。 
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第 12 章 
神经 网 络 在 情感 分 析 中 的 应 用 


























本 章 将 讨论 自然 语言 处 理 中 最 热门 、 最 流行 的 应 
人 通过 社交 媒体 平台 表达 他 们 对 某 事 的 看 法 ， 利 用 这 
度 对 于 公司 甚至 政府 来 说 都 是 至 关 重 要 的 。 


在 本 章 中 ， 我 们 将 使 














Z= 


























。 现 在 大 多 数 
M GEAoIO A DECRE GR 











alia 


pun 


















































循环 神经 网 络 来 构建 情感 分 析 解 决 方案 。 本 章 主 要 讨论 以 下 

















H 
B 


e 常用 的 情感 分 析 模 型 。 





e 情感 分 析 一 一 模型 实现 。 








原始 文本 


"This is not a good movie!" 
标记 器 
将 文本 转换 为 整数 标记 








12.1 常用 的 情感 分 析 模 型 











本 节 将 重点 介绍 可 用 于 情 








感 分 析 的 常用 深度 



















Y [11, 6, 21, 3, 49, 17] 
学 习 模型 。 图 12.1 所 示 为 构建 情感 分 析 模 型 所 需 的 a E 
步骤 。 实 值 向 量 
































所 以 ， 首 先 要 处 理 自然 的 人 类 i 


[[0.67, 0.36, …, 0.39], 
H Fie 

























































































(0.76, 0.61, …, 0.70], =] 
deris gem un ed. "NEU 循环 神经 网 络 
这 里 将 使 用 电影 评论 来 构建 这 种 情感 分 析 应 用 处 理 任意 长 度 的 序列 
程序 。 此 应 用 程序 的 目标 是 根 志 









































四 输入 的 原始 文本 判 
Wr os E HI Bk f TR 评论 。 例如 ， 如 果 原 始 文本 是 
“This movie is good”， 那 么 需要 模型 把 它 判 断 为 正 




































sigmoid 
将 输出 层 全 连接 得 到 预测 的 类 别 


























































































































TRER 0.0 (负面 的 ) 1.0 《正面 的 ) 
图 12.1 情感 分 析 解 决 方案 或 者 基于 
情感 分 析 应 用 程序 将 带领 我 们 完成 在 神经 网 络 字 列 的 自然 语 























i 言 解决 方案 的 一 般 流 程 




















第 12 章 神经 网 络 在 情感 分 析 中 的 应 用 
中 使 用 自然 人 类 语言 所 需 的 许多 处 理 步 又， 如 谍 入 。 
在 这 种 情况 下 ， 假 设 有 一 个 原始 文本 “This is not a good movie!”， 我 们 想 要 模型 把 
它 判 断 为 一 种 负面 或 正面 的 情感 。 
这 类 应 用 有 以 下 困难 。 
e 序列 可 能 具有 不 同 的 长 度 。 刚才 的 例子 是 一 个 非常 短 的 句子 , 接 下 来 我 们 会 看 到 
超过 500 字 的 文本 样本 。 
e ”如果 读者 只 看 单个 单词 (例如 ，good)， 那 就 表明 它 是 正面 的 情感 。 然 而 ， 因 为 
它 之 前 的 单词 是 not， 所 以 现在 它 是 负面 情感 。 这 可 能 会 变 得 更 复杂 ， 我 们 稍 后 
会 看 到 这 方面 的 一 个 例子 。 
正如 之 前 所 了 解 到 的 ， 神 经 网 络 无 法 处 理 原 始 文本 ， 因 此 我 们 需要 先 将 它 转换 为 所 
谓 的 标记 〈token )。 因 为 这 些 标记 只 包含 整数 值 ， 所 以 首先 需要 遍历 整个 数据 集 ， 并 统 
计 每 个 单词 的 出 现 次 数 。 然 后 ， 制 作 一 个 词汇 表 ， 每 个 单词 都 从 这 个 词汇 表 中 得 到 一 个 
索引 。 例 如 ， 单 词 this 具有 一 个 整数 ID 或 标记 11， 单 词 is 具有 标记 6, not 具有 标记 
21， 依 次 类 推 。 现 在 ， 我 们 已 经 将 原始 文本 转换 为 名 为 标记 的 整数 列表 。 
神经 网 络 仍 无 法 对 此 数据 进行 操作 ， 因 为 如 果 有 一 个 包含 10 000 个 单词 的 词汇 表 ， 


则 标记 可 以 取 0—9999 的 值 ， 并 且 它 们 可 能 根本 不 相关 。 换 名 话说 ，998 号 单词 可 以 有 具 





























































































































有 与 999 号 站 


转换 为 实 值 向 量 
样 适 








因此 , 这 












































































































































# 词 完全 不 同 的 语义 。 
里 将 使 用 第 11 38H 














il 
Titi 




















JFF 
快速 回 




















负面 情感 。 
引入 一 个 截 





PR (EI 









































因此 标记 11 成 为 向 量 
个 标记 编号 6。 


顾 一 下 第 11 章 中 所 研究 的 内 容 : 图 
应 的 实 值 向 量 之 间 的 映射 。 
词 在 该 嵌入 空间 中 以 某 
在 输入 原始 文本 后 ， 
(recurrent neural network, RNN) 中 了 。 
出 传送 到 具有 sigmoid 激活 函数 的 全 连接 层 或 密集 层 。 所 以 ， 输 
晶 是 ， 如 果 sigmoid 函数 的 值 既 不 是 0 也 不 是 1, 

ERRE. XEU REIF 0.5， 则 相应 的 输入 被 视 为 负面 




















IES, HRA 
方式 接近 














0.39], 


Hist BY I RS 2] alis] RON BTE» HERR A 
£[0.67, 0.36, ...5 
















































































层 将 整数 标记 
如 图 12.1 所 示 。 


Xx [ri] 

















我 们 得 到 二 维和 矩阵 或 张 量 ， 














RNN 可 以 处 理 人 有 





现在 























的 值 被 视 为 正面 情感 。 











12.1 中 的 这 个 租 入 层 学 习 了 标记 及 
层 可 以 学 习 单词 的 语义 ， 使 得 共有 相似 含义 的 











二 对 

















可 以 将 它 输 入 循环 神经 网 络 








ji 出 介 于 0 一 1， 





该 怎么 办 ? 这 

















FE 意 长 度 的 序列 ， 然 后 将 该 网 络 的 输 
其 中 ，0 表示 
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12.1.1 


ME, RINKE 





















































RNN 一 一 情感 分 析 背 景 
顾 一 下 RNN 的 基本 概念 ， 并 在 情感 


















































分 析 应 用 的 背景 下 讨论 它们 。 







































































正如 之 前 提 到 的 ，RNN 的 基本 构建 块 是 一 个 循环 单元 ， 
如 图 12.2 所 示 是 ea aa) 
mnes H nm |->| 新 类 态 | 
这 张 图 是 对 循环 单位 内 部 情况 的 抽象 。 这 里 有 输入 ， LS = 
它 是 一 个 词 , 如 “good”。 当然 , EBB AA TTR LLL 
这 里 暂时 不 考虑 这 一 点 。 此 外 ， 该 单元 具有 一 种 存储 状 an 
态 ， 根 据 该 状态 和 输入 的 内 容 ， 我 们 将 更 新 该 状态 并 将 图 122 RNN 单元 的 抽象 概念 
新 数据 写 入 该 状态 。 例 如 ， 假 设 之 前 输入 过 “not” 这 个 词 ， 当 时 把 它 写 入 存储 状态 中 ， 
这 样 当 在 随后 的 其 中 一 个 输入 中 看 到 了 “good” 这 个 单词 后 ， 我 们 就 从 存储 状态 中 知道 








刚刚 输入 了 单词 “not”。 现 在 ， 我 们 已 经 输入 了 “good” 这 















































































































































































































































这 个 单词 。 因 此 ， 必 须 将 “not 












































good” 更 新 到 存储 状态 中 ， 这 表明 整个 输入 文本 可 能 具有 负面 情感 。 

从 旧 状 态 和 输入 状态 的 新 内 容 的 映射 是 通过 所 谓 的 门 CGate) 完成 的 ， 这 些 实现 方 
式 在 不 同 版 本 的 循环 单元 中 是 不 同 的 。 它 基本 上 是 一 个 具有 激活 函数 的 矩阵 运算 ， 但 正 
如 我 们 稍 后 将 看 到 的 ， 反 向 传播 梯度 存在 一 个 问题 。 因 此 ， 我 们 必须 以 特殊 方式 设计 
RNN， 以 使 梯度 不 会 过 度 扭 曲 。 

在 循环 单元 中 ， 有 一 个 类 似 的 门 用 于 计算 输出 ， 并 且 之 后 循环 单元 的 输出 取决 于 状 
态 的 当前 内 容 和 我 们 看 到 的 输入 。 因 此 ， 这 里 可 以 尝试 做 的 是 展开 使 用 循环 单元 进行 的 
处 理 ， 如 图 12.3 所 示 。 












































开始 


现在 ， 这 里 





一 267 


在 时 间 步 1 中 ， 


只 有 一 个 循环 单元 ， 但 
单词 “this” 输 入 循环 








图 12.3 














循环 神经 网 络 的 展 














版 本 
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F.JL» 


流程 图 显示 了 在 不 同时 间 步 发 和 9 








E 的 情况 。 


循环 单元 的 内 部 存储 状态 被 初始 化 
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s 

















为 零 。 对 新 的 数据 序列 的 处 理 














都 是 由 








和 循环 单元 的 状态 〈 即 0)。 























TensorFlow 完成 的 。 因此 , 我 们 可 以 
这 里 使 用 内 部 门 更 新 存储 状态 ， 以 便 “this” 在 我 们 输入 第 





二 个 单词 “is” 时 使 用 。 现 在 ， 存 储 状态 中 有 了 一 些 内 容 。 








多 实际 含义 ， 所 以 存 
同样 ， 因 




















情感 的 最 终 预 测 。 同 样 ， 





Lica 





会 保存 一 些 非 零 值 。 
接 下 来 看 下 一 个 时 间 步 。 


的 状态 只 包含 接近 零 的 值 。 





因 








请 状态 可 能 仍然 近似 为 0。 
为 “is” 也 没有 太 多 含义 ， 所 以 存储 状态 依然 近似 为 0。 

在 下 一 个 时 间 步 中 ， 我 们 可 以 看 到 单词 “not”， 这 会 影响 到 我 们 对 于 整个 输入 文本 
这 也 是 需要 存储 在 记忆 中 的 内 容 ， 以 避免 循环 单元 内 的 门 所 处 


Gg 


到 单词 “this” 





























因为 “this” 这 个 单词 没有 很 








为 现在 要 存储 我 们 刚 看 到 的 单词 “not”， 所 以 此 时 状态 











在 得 到 六 


























词 “a” D Jes 因为 它 





它 可 能 被 忽略 了 。 新 的 存储 状态 





4H 


现在 ， 我 们 





F 








到 现在 为 止 , 循环 单元 已 经 以 某 种 方式 将 单词 “not” 和 “very” 存 储 在 其 存 
在 下 一 个 时 间 步 中 ， 我 们 可 以 看 到 单词 “good”， 因 此 现在 神经 网 络 





MH € 











L1 
ZN 











可 能 会 得 








语 “not very good”, Jf 


想法 也 会 存储 在 内 部 状态 中 。 














然后 ,在 最 后 的 时 间 步 中 ， 我 们 可 以 看 到 单词 “movie”。 
































所 以 它 可 能 被 忽略 。 
接 下 来 ， 使 用 循环 单元 
函数 处 理 它 〈 这 里 没有 显 
这 里 的 想法 是 ， 希 望 通过 互联 网 








示 )。 最 终 我 们 会 得 到 一 


是 复制 了 一 通 。 


到 了 “very” 这 个 词 ， 这 表明 存在 的 情感 都 可 


出 这 样 的 结论 “这 可 



























































B 影 数据 库 对 成 干 上 万 的 





Ak H 
H5 AE 





也 没有 包含 太 多 信息 ， 所 以 








能 是 一 种 强烈 的 情感 。 
KASH TS 
已 经 处 理 了 短 
一 个 负面 情感 !”。 于 是 这 种 





















































因为 这 个 单词 相关 性 不 大 ， 











内 的 另 一 个 门 来 输出 内 部 存储 状态 的 内 容 ， 然 后 用 sigmoid 
个 介 于 0 一 1 的 输出 值 。 



































OAR 


影评 论 样本 进行 网 络 训 





练 。 对 于 每 个 输入 文本 , 我 们 给 出 正面 或 负面 的 真实 情感 值 。 然 后 , 我 们 希望 TensorFlow 








如 图 12.4 所 示 。 


我 们 在 此 实现 中 使 





























才 解 释 的 ， 不 同 点 是 这 里 我 们 需要 好 











集 了 一 个 新 的 数据 序列 ， 它 是 第 








层 中 ， 因 为 循环 单元 需要 输入 数 

















的 RNN 的 架构 是 3 


一 个 循环 层 的 输出 。 
EFI (我 们 从 第 一 























层 的 输入 是 一 些 浮 点 值 ， 




















玄 是 什么 ， 以 便 它们 准确 地 将 此 输入 文本 映射 到 正确 的 情感 上 ， 


FRAY RNN 类 型 架构 。 在 第 一 层 中 ， 就 像 刚 
E 每 一 个 时 间 步 从 循环 单元 中 输出 值 。 然 后 ， 我 们 收 














接 下 来 ， 可 以 将 它 输入 第 二 个 循环 




















有 我 们 3 


没有 真正 理 




















实 这 上 




















zik 
解 它 的 含义 )。 这 个 新 的 数据 序列 在 


的 输出 和 要 输入 第 二 个 循环 








一 | 288 | 





RNN 中 有 意义 , 但 它 不 是 人 类 会 理解 的 东西 。 
























































开始 | pla 
wag RUZ 



















































































然后 , 在 第 二 个 循环 层 中 进行 类 似 的 处 理 。 

this "is" not a very" "good" | [ "movie" 

开始 po p p pm p p pou 
RSF >= RUL 一 ~;RU1 — RUL —RU1 | 一 ~;RU1i »iRU1| ~iRU1| 层 1 
2}: RU2 一 “~ RU2 一 RU2i- 一 ~ RU2 | "RU2 ”RU2| 层 2 

开始 pas A yrs uias 
ASE ~RU3i— > RU3} >| RU3 一 = RU3 一 ~RU3| ~RU3 >RU3! 层 3 

Y 
正面 的 或 
负面 的 
图 12.4 本章 所 使 用 的 模型 结构 之 一 





我 们 将 此 循环 单元 的 内 部 存储 状态 初始 化 为 0， 然 后 从 第 一 个 循环 层 获取 输出 并 将 














它 作为 输入 。 这 里 我 们 



































单元 在 输入 单词 “is” 后 的 多 


j 循 环 单 元 内 的 门 处 理 它 ， 




















这 样 做 ， 直 到 已 经 处 




































































继续 


并 更 新 状态 ， 接 着 获取 第 一 层 的 循环 
BUA, FRAP ETE AHR A SRS "t 
完整 个 序列 ， 然 后 收集 第 二 个 循环 层 的 所 有 输出 。 这 里 我 们 将 第 


be 





二 个 循环 层 的 输出 当 作 第 三 个 循环 层 中 的 输入 ， 在 第 三 层 进行 类 似 的 处 理 。 但 是 这 里 我 
HR RES, BERR, Hei 
出 到 未 在 此 处 显示 的 全 连接 层 中 。 最 后 , 我 们 使 用 sigmoid 激活 函数 , 得 到 了 一 个 介 于 0 一 
1 的 值 ，0 代表 负面 情感 ，1 代表 正面 情感 。 


12.1.2 ”梯度 爆炸 与 梯度 消失 一 一 回顾 




















们 只 想 要 最 后 一 个 时 间 步 的 输出 ， 这 是 迄今 为 止 所 有 






































正如 第 11 章 提 到 的 ， 









































非常 重要 。 现 在 回 过 头 来 看 图 12.1， 该 流程 图 解释 了 这 






































想象 一 下 ， 某 数据 及 





中 有 一 段 包含 500 ^È 















































现象 。 





# 词 的 文本 ， 我 们 将 用 它们 来 实现 情 





析 分 类 器 。 在 每 个 时 间 步 中 ， 我 们 以 递归 方式 在 循环 单元 中 应 用 内 部 门 。 因 此 ， 如 





500 个 单词 ， 我 们 将 会 应 用 这 些 门 500 次 以 更 新 循环 

我 们 已 经 知道 ， 训 练 神经 网 络 的 方式 是 使 用 名 为 梯度 反 向 传 扣 
本 的 正确 输出 计算 出 损失 函数 。 我 们 希望 最 小 化 该 损失 函数 ， 
于 该 特定 输入 文本 的 期 望 输出 。 因 此 ， 我 们 需要 针对 这 





过 神经 网 络 的 输出 和 此 样 
以 便 神经 网 络 的 实际 输出 对 应 














元 的 内 部 存储 状态 。 
























































现在 存在 一 种 名 为 梯度 爆炸 和 梯度 消失 的 现象 ， 这 在 RNN 中 


感 分 
FH 
DAR 








AM 


有 





























的 算法 ， 这 里 可 以 通 
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循环 单元 内 的 权重 计算 此 损失 函数 的 梯度 ， 这 些 权重 还 可 用 于 更 新 内 部 状态 并 输出 最 终 
值 的 门 。 

现在 ， 门 可 能 已 经 运算 了 500 次 ， 如 果 它 包含 一 次 乘法 ， 那 么 基本 上 得 到 的 是 一 个 
指数 函数 。 因 此 ， 如 果 我 们 将 一 个 值 与 其 自身 相 乘 500 次 ， 如 果 该 值 小 于 1， 那 么 它 将 
很 快 “ 消 失 ” 同样 ， 如 果 大 于 1 的 值 与 其 自身 相 乘 500 次 ， 那 么 它 会 “爆炸 ”。 

唯一 能 够 在 500 次 乘法 中 存活 的 值 是 0 和 1。 由 于 它们 将 保持 不 变 ， 因 此 循环 单元 
实际 上 比 我 们 在 此 处 看 到 的 要 复杂 得 多 。 理 想 的 情况 是 : 可 以 以 某 种 方式 映射 内 部 存储 
状态 和 输入 ， 从 而 更 新 内 部 存储 状态 并 输出 一 些 值 。 但 实际 上 ， 我 们 需要 非常 小 心地 通 
过 这 些 门 向 后 传播 梯度 ， 这 样 就 不 会 在 很 多 时 间 步 中 进行 这 种 指数 乘法 了 。 要 了 解 更 多 
言 息 ， 可 以 查看 有 关 循 环 单位 数学 定义 的 一 些 教程 。 
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我 们 已 经 详细 了 解 了 如 何 实现 RNN 中 变 体 LSTM WHER AS. ON FREAR, 
本 节 将 使 用 名 为 Keras 的 更 高 级 的 API. 












































12.2.1 Keras 


“Keras 是 一 个 高 级 神经 网 络 API, 用 Python 285 , 48%  TensorFlow. CNTK 

或 Theano 上 运行 。 它 的 开发 重点 是 实现 快速 实验 。 能够 以 最 短 的 时 间 实 现 一 个 
想法 是 做 好 研究 的 关键 。” 

一 一 Keras 网 站 


因此 ，Keras 只 是 TensorFlow 和 其 他 深度 学 习 框 架 的 一 个 包装 。 它 非常 适合 于 原型 
设计 和 快速 构建 ， 但 是 它 减少 了 对 代码 的 控制 。 我 们 有 机 会 在 Keras 中 实现 这 种 情感 分 
析 模 型 ， 从 而 加 深 对 TensorFlow 和 Keras 的 理解 。 我 们 可 以 使 用 Keras 进行 快速 原型 设 
计 ， 使 用 TensorFlow 实现 生产 系统 。 


更 有 趣 的 消息 是 ， 我 们 无 须 切 换 到 完全 不 同 的 环境 。 现 在 可 以 在 TensorFlow 中 将 
Keras 作为 模块 访问 并 导入 包 。 











































































































from tensorflow.python.keras.models 
import Sequential 
from tensorflow.python.keras.layers 
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import Dense, GRU, Embedding 
from tensorflow.python.keras.optimizers 


import Adam 





from tensorflow.python.keras.preprocessing.text 
import Tokenizer 

from tensorflow.python.keras.preprocessing.sequence 
import pad_sequences 


继续 使 用 现在 TensorFlow 中 这 个 更 抽象 的 Keras 模块 ， 它 将 帮助 我 们 快速 构建 深度 
学 习 解 决 方案 。 我 们 将 用 几 行 代码 完成 完整 的 深度 学 习 解 决 方案 。 
12.2.2 ”数据 分 析 与 预 处理 


下 面 来 看 如 何 实现 数据 加 载 。Keras 实际 上 有 一 个 功能 可 以 用 来 从 IMDb 中 加 载 这 个 
青 感 数据 集 ， 但 问题 是 该 函数 已 经 将 所 有 单词 映射 到 整数 标记 。 这 是 在 神经 网 络 中 使 用 自 
然 人 类 语言 的 一 个 重要 部 分 ， 接 下 来 将 介绍 如 何 操作 。 

此 外 ， 如 果 和 希望 使 用 此 代码 对 其 他 语言 提供 的 任何 数据 进行 情感 分 机 ， 则 需要 自己 
执行 此 操作 。 我 们 很 快 就 实现 了 一 些 用 于 下 载 此 数据 集 的 函数 。 

现在 需要 导入 一 堆 必 需 的 包 。 


$matplotlib inline 
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II 





















































import matplotlib.pyplot as plt 
import tensorflow as tf 


import numpy as np 





from scipy.spatial.distance import cdist 
from tensorflow.python.keras.models import Sequential 





from tensorflow.python.keras.layers import Dense, GRU, Embedding 
from tensorflow.python.keras.optimizers import Adam 
from tensorflow.python.keras.preprocessing.text import Tokenizer 





from tensorflow.python.keras.preprocessing.sequence import pad sequences 


接 下 来 加 载 数据 集 。 





import imdb 
imdb.maybe_download_and_extract () 


输出 如 下 。 


- Download progress: 100.0% 





Download finished. Extracting files. 
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Done. 


input text train, target_train = imdb.load_data(train=True) 
input text test, target test = imdb.load data(train-False) 


print("Size of the trainig set: ", len(input text train)) 
print("Size of the testing set: ", len(input text test)) 
A 

输出 如 下 。 


Size of the trainig set: 25000 
Size of the testing set: 25000 


现在 可 以 看 到 训练 集 和 测试 集 各 有 25000 个 文本 。 
现在 来 看 训练 集中 的 一 个 例子 。 














fcombine dataset 
text_data = input_text_train + input_text_test 
input_text_train[1] 


输出 如 下 。 


1 


[This is a really heart-warming family movie. It has absolutely brilliant 
animal training and "acting" (if you can call it like that) as well 
(just think about the dog in "How the Grinch stole Christmas"... it was 
plain bad training). The Paulie story is extremely well done, well 
reproduced and in general the characters are really elaborated too. 
Not more to say except that this is a GREAT MOVIE!<br /><br />My ratings: 
story 8.5/10, acting 7.5/10, animalst+fx 8.5/10, cinematography 8/10.<br 
/><br />My overall rating: 8/10 - BIG FAMILY MOVIE AND VERY WORTH WATCHING! '! 


























target train[1] 


输出 如 下 。 











这 是 一 个 相当 短 的 示例 ， 情 感 值 是 1.0, 这 意味 着 它 是 一 个 正面 的 情感 ， 因 此 这 是 入 
电影 的 正面 评论 。 

现在 ， 我 们 开始 使 用 标记 器 ， 这 是 处 理 这 些 原始 数据 的 第 一 步 ， 因 为 神经 网 络 无 法 
处 理 文本 数据 。Keras 实现 了 所 谓 的 标记 器 ， 用 于 构建 词汇 表 ， 从 而 完成 从 单词 到 整数 
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的 映射 。 
此 外 , 假设 这 里 最 多 需要 10 000 个 单词 , 那么 它 将 只 使 用 数据 集中 10 000 个 最 常用 
的 单词 。 


num top words = 10000 





tokenizer obj = Tokenizer (num words-num top words) 


现在 ， 从 数据 集中 获取 所 有 文本 ， 并 在 文本 中 调用 fit 函数 。 








tokenizer obj.fit on texts(text data) 


标记 器 大 约 需要 准备 108， 然 后 它 将 构建 词汇 表 ， 有 具体 如 下 。 











tokenizer obj.word index 
输出 如 下 。 


('britains': 33206, 
'labcoats': 121364, 
'steeled': 102939, 
'geddon': 67551, 
"rossilini's": 91757, 
'recreational': 27654, 
'suffices': 43205, 
'hallelujah': 30337, 
'mallika': 30343, 
'kilogram': 122493, 
'elphic': 104809, 
'feebly': 32818, 
'unskillful': 91728, 
"'mistress'": 122218, 
"yesterday's": 25908, 
'busco': 85664, 
'goobacks': 85670, 
'mcfeast': 71175, 
'tamsin': 77763, 
"petron's": 72628, 
"'lion": 87485, 
'sams': 58341, 
'unbidden': 60042, 
"principal's": 44902, 
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'minutiae': 31453, 
'smelled': 35009, 
'historyNx97but': 75538, 
'vehemently': 28626, 
'leering': 14905, 
'kynay': 107654, 
'intendend': 101260, 
'chomping': 21885, 
'nietsze': 76308, 
'browned': 83646, 
'grosse': 17645, 
"''gaslight''": 74713, 
'forseeing': 103637, 
'asteroids': 30997, 
'peevish': 49633, 
Vattic'"* 1209396, 
'genres': 4026, 
"breckinridge': 17499, 
'wrist': 13996, 
"sopranos'": 50345, 
'embarasing': 92679, 
"wednesday's": 118413, 
'cervi': 39092, 
'felicity': 21570, 
"'"'horror''"z 56254, 
'alarms': 17764, 
"xot 5294310, 
'leper': 27793, 
'onceNx85': 100641, 
'iverson': 66834, 
'triply': 117589, 
'industries': 19176, 
'bprite': 16733, 
'amateur': 2459, 
"libby's": 46942, 
'eeeeevil': 120413, 
"jboc33ts. 5TITT, 
'wyoming': 12030, 
'waned': 30059, 
'uchida': 63203, 
'uttter': 93299, 
'irector': 123847, 
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'outriders': 95156, 
'perd': 118465, 














这 样 ， 每 一 个 单词 都 有 一 个 对 应 的 整数 ， 例 如 ， 单 词 “the” 对 应 数字 1。 











tokenizer obj.word index['the'] 


输出 如 下 。 


I: 


同样 ,“and” 对 应 的 数字 是 2。 





tokenizer obj.word index['and'] 


输出 如 下 。 


2 


单词 “a” 对 应 的 数字 是 3。 


tokenizer obj.word index['a'] 


输出 如 下 。 





3 


依次 类 推 ， 可 以 看 到 单词 “movie” 对 应 的 是 数字 17。 








tokenizer obj.word index['movie'] 


输出 如 下 。 


17 


单词 “film” 对 应 的 数字 是 19. 





tokenizer obj.word index['film'] 


输出 如 下 。 
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T9 


所 有 这 些 意 味 着 “the” 是 数据 集中 出 现 次 数 最 多 的 单词 ,“and” 是 数据 集中 出 现 次 
数 第 二 多 的 单词 。 因 此 ， 每 当 我 们 想 要 将 单词 映射 到 整数 标记 时 ， 总 会 得 到 这 些 数字 。 


下 面 尝 试 以 数字 743 作为 例子 ， 可 以 发 现 它 对 应 的 单词 是 “romantic ". 
















































































tokenizer obj.word index['romantic'] 
输出 如 下 。 
743 


因此 , 每 当 我 们 在 输入 文本 中 看 到 单词 “romantic” 时 ,就 将 它 映 射 到 标记 整数 743 。 
下 面 再 次 使 用 标记 器 将 训练 集 里 文本 中 的 所 有 单词 转换 为 整数 标记 。 



































input_text_train[1] 


输出 如 下 。 


1 


[This is a really heart-warming family movie. It has absolutely brilliant 
nimal training and "acting" (if you can call it like that) as well 
just think about the dog in "How the Grinch stole Christmas"... it was 
lain bad training). The Paulie story is extremely well done, well 











ore to say except that this is a GREAT MOVIE!<br /><br />My ratings: 
tory 8.5/10, acting 7.5/10, animals+fx 8.5/10, cinematography 8/10.<br /> 
<br />My overall rating: 8/10 - BIG FAMILY MOVIE AND VERY WORTH WATCHING! 


当 将 该 文本 转换 为 整数 标记 时 ， 它 将 变 为 整数 数组 。 





a 
( 
P 
reproduced and in general the characters are really elaborated too. Not 
m 
S 

















np.array(input train tokens[1]) 


输出 如 下 。 


array([ 11, 6, 3, 62, 488, 4679, 236, 17, 9, 45, 419, 
513, 1717, 2425, 2, 113, 43, 22, 67, 654, 9, 31, 
12, 14, 69, 39, 101, 42, 1, 826, 8, 85, 1, 
6418, 3492, 1156, 9, 13, 1042, 74, 2425, 1, 6419, 64, 
6, 568, 69, 221, 69, 2, 8, 825, 1, 102, 23, 
62, 96, 21, 51, 5, 181, 556, 12, 11, 6, 83, 
78, 17, 7, 7, 56, 2818, 64, 723, 447, 156, 113, 
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702, 447, 156, 1598, 3611, 723, 447, 156, 633, 723, 156, 
ugs CER Soy 4XT, O70, 723, 156, 191, 236, Ay 2; 
52, 278, 147]) 


单词 “this” 变 成 数字 11,“is” 变 成 数字 59. 
我 们 还 需要 转换 文本 的 其 余部 分 。 











input test tokens = tokenizer obj .texts to sequences(input text test) 


现在 ， 还 有 男 一 个 问题 ， 因 为 即使 循环 单元 可 以 使 用 任意 长 度 的 序列 ， 标 记 序列 的 
也 取决 于 原始 文本 的 长 度 。 然 而 ，TensorFlow 的 工作 方式 是 一 批 中 的 所 有 数据 都 需 
有 相同 的 长 度 。 





















































因此 ， 要 么 确保 整个 数据 集中 的 所 有 序列 具有 相同 的 长 度 ， 要 么 编写 自 定义 数据 生成 





























器 以 确保 单个 批 次 中 的 序列 具有 相同 的 长 度 。 现在 , 确保 数据 集中 的 所 有 序列 具有 相同 的 长 
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简单 得 多 ， 但 还 是 存在 一 些 异 常 值 。 例 如 ， 有 些 句 子 的 长 度 超过 2200 个 单词 。 如 果 所 
有 短 句子 的 长 度 都 超过 2200 个 单词 ， 那 么 将 非常 消耗 内 存 。 所 以 这 里 要 做 的 就 是 妥协 。 首 



























































先 ， 需 要 统计 每 个 输入 序列 中 的 所 有 单词 或 标记 的 数量 。 可 以 看 到 , 序列 中 的 平均 单词 数 约 
为 221。 
total num tokens = [len(tokens) for tokens in input train tokens + 








input test tokens] 


total num tokens = np.array (total num tokens) 


Get the average number of tokens 





np.mean(total_num_tokens) 


输出 如 下 。 





2215224710 


最 大 单词 数 超过 2200. 




















np.max(total num tokens) 


输出 如 下 。 


2208 


现在 ， 平 均值 和 最 大 值 之 间 存 在 巨大 差异 ， 如 果 只 填充 数据 身 









































中 的 所 有 句子， 那么 
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会 浪费 大 量 内 存 , 这样 它们 都 会 拥有 2208 个 标记 。 如 果 某 一 数据 集 包 含 数 百 万 个 文本 序 
列 ， 那 么 这 将 成 为 一 个 问题 。 

所 以 我 们 要 做 的 是 妥协 : 填充 所 有 序列 ， 并 截断 那些 大 长 的 序列 ， 使 它们 有 544 个 
单词 。 计 算 的 方式 为 采用 数据 集中 所 有 序列 的 平均 单词 数 ， 并 添加 两 个 标准 偏差 。 




























































































max num tokens = np.mean(total num tokens) + 2 * np.std(total num tokens) 
max num tokens - int(max num tokens) 


max num tokens 


输出 如 下 。 


544 








从 中 得 到 了 什么 ? 我 们 履 盖 了 数据 集中 大 约 95% 的 文本 ， 因 此 只 有 大 约 5% 的 文本 
中 的 单词 数 多 于 544. 

















np.sum(total_num_tokens < max_num_tokens) / len(total_num_tokens) 
输出 如 下 。 


0.94532 

















现在 ， 在 Keras 中 调用 这 些 函 数 。 要 么 填充 长 度 太 短 的 序列 〈 只 会 添加 零 )， 要 么 截 
断 太 长 的 序列 〈 如 果 文 本 太 长 ， 去 掉 一 些 单词 )。 


现在 , 还 有 一 件 重 要 的 事情 : 我 们 可 以 在 开头 或 结尾 执行 此 填充 和 截断 。 想 象 一 下 ， 
有 一 个 整数 标记 序列 ， 我 们 需要 填充 它 ， 因 为 它 太 短 了 。 要 么 在 开头 填充 这 些 零 ， 以 便 
在 结尾 处 有 实际 的 整数 标记 。 要 么 以 相反 的 方式 进行 : 在 开头 拥有 所 有 这 些 数据 ， 然 后 
结尾 添加 所 有 零 。 但 是 如 果 回 过 头 来 看 看 前 面 的 RNN 流程 图 ， 请 记 住 它 一 次 一 步 地 
处 理 序列 ， 所 以 如 果 一 开始 处 理 零 ， 它 可 能 不 会 有 任何 意义 ， 内 部 状态 可 能 仍 为 零 。 因 
此 ， 每 当 它 看 到 特定 单词 的 整数 标记 时 ， 它 就 会 知道 现在 开始 处 理 数据 了 。 


然而 ， 如 果 所 有 的 零 都 在 结尾 ， 那 么 就 会 开始 处 理 所 有 数据 ， 然 后 在 循环 单位 中 有 
一 些 内 部 状态 。 现 在 ， 我 们 看 到 了 很 多 零 ， 因 此 这 实际 上 可 能 会 破坏 刚刚 计算 出 来 的 内 
部 状态 。 这 就 是 最 好 选择 在 开头 填充 零 的 原因 。 

另 一 个 问题 是 在 截断 文本 时 ， 如 果 文 本 很 长 ， 我 们 会 截断 它 以 使 其 长 度 为 544 个 单 
词 ， 或 者 为 其 他 设 定 的 单词 数 。 现 在 ， 想 象 一 下 当 看 到 截断 后 的 句子 是 “this very good 
movie” 或 者 是 “this is not” 时 ， 我 们 会 如 何 判 断 。 当 然 ， 我 们 知道 只 对 非常 长 的 序列 
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执行 截断 操作 ， 但 这 样 做 可 能 会 丢失 正确 分 类 此 文本 的 必要 信息 。 因 此 ， 妆 我 们 截断 输 
入 文本 时 ， 其 实 正在 做 出 妥协 。 更 好 的 方法 是 创建 一 个 批 次 并 在 该 批 次 中 填充 文本 。 因 
此 ， 当 看 到 非常 长 的 序列 时 ， 我 们 将 其 他 序列 填充 为 具有 相同 长 度 的 序列 。 但 是 不 需要 
将 所 有 这 些 数据 存储 在 内 存 中 ， 因 为 大 部 分 内 存 都 浪费 了 。 

现在 返回 并 转换 整个 数据 集 ， 以 便 进行 截断 和 填充 。 最 终 ， 它 会 变 成 一 个 很 大 的 数 
TREE. 


Seq pad = 'pre' 


















































































































































input train pad = pad sequences (input train tokens, maxlen-max num tokens, 
padding-seq pad, truncating-seq pad) 


input test pad = pad sequences(input test tokens, maxlen-max num tokens, 
padding-seq pad, truncating-seq pad) 


下 面 检查 一 下 和 矩阵 的 形状 。 


























input_train_pad.shape 
输出 如 下 。 

(25000, 544) 
input_test_pad.shape 


输出 如 下 。 


(25000, 544) 


下 面 查 看 具体 样本 标记 在 填充 前 后 的 样子 。 





























np.array(input train tokens[1]) 


输出 如 下 。 


array([ 11, 6, 3, 62, 488, 4679, 236, 17, 9, 45, 419, 
513, LIV. 2425; 2, 1135, 43, 22, 07, 054, 97:37; 
12, 14, 69, 39, 101, 42, 1, 826, 8, 85, 1, 
6418, 3492, 1156, 9, 13, 1042, 74, 2425, 1, 6419, 64, 
65 B68 72-694. «221; 09} 25 85. "9254. Lye T0223 
62:1: 90:4 21.7. cS1, Dy Shs 15965-1257 115 Oy By 
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147]) 


278, 


S7 


下 面 查看 填充 之 后 的 样本 。 





pad[1] 























input_train 


输出 如 下 。 
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OR 105. 07: 09-042 Op 0507 705. 0,057 
OF. Og OF 05-0 Oy Op. 0, 0, 0, 0, 
0,0,0,0,0,0,0, 0, 0, 0, O0, 
OR 2075 05:050, 05: Og 5:04 705 Oy OF 
07 Og 05; Ov Oy OF Op. 0, Oy 0, 0; 
0, 0, O, 0, O, O, 0, 0, 0, 0, O, 
OR 207500575 OG 0, 05: 304 07 1705 0 Os 
07. Og 05; :0,.- Ore 04. Og 07 0, 05-0, 
0, 0, 11, 6, 3, 62, 488, 4679, 236, 17, 9, 
45, 419, 513, 1717, 2425, 2, 113, 43, 22, 67, 654, 
9, 37, 12, 14, 69, 39, 101, 42, 1, 826, 8, 
85, 1, 6418, 3492, 1156, 9, 13, 1042, 74, 2425, 1, 


6419, 64, 6, 568, 69, 221, 69, 2, 8, 825, 1, 
102, 23, 62, 96, 21, 51, 5, 131, 556, 12, 11, 
6, 3, 78, 17, 7, 7, 56, 2818, 64, 723, 447, 
156, 113, 702, 447, 156, 1598, 3611, 723, 447, 156, 633, 
723, 156, 7, 7, 56, 437, 670, 723, 156, 191, 236, 
17, 2, 52, 278, 147], dtype-int32) 


此 外 ， 我 们 还 需要 一 个 反 向 映射 的 功能 ， 以 便 能 从 整数 标记 映射 回 文本 单词 。 这 
一 个 非常 简单 的 辅助 函数 ， 现 在 实现 它 。 














pu 














rau 


























index = tokenizer obj.word index 





index inverse map = dict(zip(index.values(), index.keys())) 








def convert tokens to string(input tokens): 


# Convert the tokens back to words 
input words = [index inverse map[token] for token in input tokens if 
token != 0] 





# join them all words. 
combined text = " ".join(input words) 


return combined text 


例如 ， 数 据 集中 的 原始 文本 如 下 。 











input_text_train[1] 


输出 如 下 。 
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input text train[1] 


'This is a really heart-warming family movie. It has absolutely brilliant 
nimal training and "acting" (if you can call it like that) as well 
just think about the dog in "How the Grinch stole Christmas"... it was 
lain bad training). The Paulie story is extremely well done, well 








ot more to say except that this is a GREAT MOVIE!<br /><br />My ratings: 
tory 8.5/10, acting 7.5/10, animals+fx 8.5/10, cinematography 8/10.«br /> 
<br />My overall rating: 8/10 - BIG FAMILY MOVIE AND VERY WORTH WATCHING! ' 


如 果 使 用 辅助 函数 将 标记 转换 回 文本 单词 ， 将 得 到 以 下 文本 。 





a 
( 
P 
reproduced and in general the characters are really elaborated too. 
N 
S 





























convert tokens to string(input train tokens[1]) 


'this is a really heart warming family movie it has absolutely brilliant 
animal training and acting if you can call it like that as well just 
think about the dog in how the grinch stole christmas it was plain bad 
training the paulie story is extremely well done well and in general the 





characters are really too not more to say except that this is a great 
movie br br my ratings story 8 5 10 acting 7 5 10 animals fx 8 5 10 
cinematography 8 10 br br my overall rating 8 10 big family movie and 
very worth watching' 


除了 标点 符号 和 其 他 符号 外 ， 以 上 文本 与 原文 本 基本 相同 。 


12.2.3 ”构建 模型 


现在 需要 创建 RNN， 我 们 将 在 Keras 中 执行 此 操作 ， 过 程 非常 简单 。 我 们 用 所 谓 的 
sequential 模型 来 实现 。 


这 种 架构 的 第 一 层 是 嵌入 (embedding) 层 。 回 顾 图 12.1 所 示 的 流程 ， 我 们 刚刚 做 的 是 
将 原始 输入 文本 转换 为 整数 标记 。 但 我 们 仍然 无 法 将 它 输入 RNN 中 ， 因 此 必须 将 它 eee 
BRAHE, RAHEEM- ~. PER LA RB, (Ea PP 
-1 一 1， 这 是 可 以 在 神经 网 络 中 使 用 的 数据 。 
神奇 之 处 在 于 ,， 这 个 众 入 层 与 RNN 同时 训练 并 且 RNN 无 法 识别 原始 单词 。 它 只 
能 识别 整数 标记 ， 但 需要 学 会 认识 单词 之 间 的 使 用 规则 。 因 此 ， 骨 入 层 推 断 某 些 词 或 
某 些 整数 标记 可 能 具有 相似 的 含义 , 然后 在 相 入 向 量 中 对 这 些 看 起 来 相似 的 单词 进行 
编码 。 
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TT 





o 








现在 ， 我 们 需要 确定 的 是 每 个 向 量 的 长 度 。 例 如 ， 将 标记 “11” 转 换 为 实 值 向 上 
在 这 个 例子 中 , 将 使 用 长 度 为 8 的 嵌入 向 量 ， 实 际 上 这 个 值 非常 短 〈 通 常 ， 它 介 于 100 一 
300)。 现 在 尝试 在 嵌入 向 量 中 更 改 此 属性 ， 然 后 重新 运行 代码 以 查看 结果 。 

因此 ， 我 们 将 圣 入 向 量 的 长 度 设 置 为 8， 然后 使 用 Keras 将 此 嵌入 层 添 加 到 RNN 中 。 


它 必 须 是 网 络 的 第 一 层 。 
















































































embedding_layer_size = 8 


Embedding(input dim-num top words, 
output dim-embedding layer size, 
input length-max num tokens, 
name-'embedding layer')) 


然后 ， 可 以 添加 第 一 个 循环 层 了 ， 这 里 将 使 用 门 控 循 环 单元 (Gated Recurrent Unit, 
看 到 很 多 人 使 用 LSTM 网 络 ， 但 有 一 些 人 似乎 认为 GRU 更 好 ， 因 


GRU)。 通 常 ， 我 们 会 
为 LSTM 网 络 内 部 有 些 门 是 多 余 的 。 事 实 上 ， 使 用 更 少 的 门 ， 也 可 以 使 代码 变 得 简单 。 
我 们 可 以 为 LSTM 网 络 增加 一 千 多 个 门 ， 但 这 并 不 意味 着 它 会 变 得 更 好 。 


维度 为 16， 返 回 的 序列 模型 如 下 。 





rnn type model.add( 







































































现在 开始 定义 GRU RH, (Bc d 








rnn_type_model.add(GRU(units=16, return_sequences=True) ) 


看 一 下 图 12.4 所 示 的 流程 图 ， 我 们 还 想 要 添加 第 二 个 循环 层 。 

















rnn_type_model.add(GRU(units=8, return_sequences=True) ) 


层 不 会 输出 序列 ， 因 为 它 后 面 还 有 














然后 ， 添 加 第 三 个 〈 即 最 后 一 个 ) 循环 层 ， 这 一 


个 密集 层 。 它 只 给 出 GRU 的 最 终 输出 ， 而 不 是 整个 输出 序列 。 




















rnn type model.add(GRU(units-4)) 








然后 ， 把 这 里 的 输出 馈送 到 全 连接 层 或 密集 层 ， 该 层 应 该 为 每 个 输入 序列 输出 一 个 值 。 


这 是 使 用 sigmoid 激活 函数 处 理 过 的 ， 因 此 它 输出 0 一 1 的 一 个 值 。 












































rnn type model.add(Dense(1, activation-'sigmoid')) 


日 具有 特定 学 习 速 率 的 Adam 优化 器 , 损失 函数 是 RNN 的 输出 和 训 
EE 实际 类 别 值 为 0 




















这 里 我 们 使 月 
练 集 的 实际 类 别 值 之 间 的 三 元 交叉 焙 (binary cross-entropy), XH 


或 1。 












































— 283 O 


第 12 章 神经 网 络 在 情感 分 析 中 的 应 用 


model optimizer = Adam(lr-1e-3) 


rnn type model.compile(loss-'binary crossentropy', 
optimizer=model_optimizer, 


metrics=['accuracy']) 


下 面 输出 模型 的 实际 结构 。 























rnn type model.summary() 





Layer (type) Output Shape Param f£ 








embedding layer (Embedding) (None, 544, 8) 80000 








gru 1 (GRU) (None, None, 16) 1200 





gru 2 (GRU) (None, None, 8) 600 





gru 3 (GRU) (None, 4) 156 








dense 1 (Dense) (None, 1) 5 











" 


Total params: 81,961 


à 





'rainable params: 81,961 
Non-trainable params: O0 











可 以 看 到 ， 该 模型 有 一 个 嵌入 层 、3 个 循环 层 和 一 个 密集 层 。 注 意 ， 它 们 的 参数 并 
不 多 。 


12.2.4 ”模型 训练 和 结果 分 析 
下 面 开始 训练 ， 这 很 容易 。 



































rnn_type_model.fit(input_train_pad, target_train, 





validation_split=0.05, epochs=3, batch_size=64) 
输出 如 下 。 


Train on 23750 samples, validate on 1250 samples 
Epoch 1/3 
23750/23750 [ ]23750/23750 











$$$ ayj 
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[ ] - 176s 7ms/step - loss: 0.6698 - acc: 
0.5758 - val loss: 0.5039 - val acc: 0.7784 





Epoch 2/3 

23750/23750 [ 123750/23750 

[ ] - 175s 7ms/step - loss: 0.4631 - acc: 
0.7834 - val_loss: 0.2571 - val_acc: 0.8960 




















Epoch 3/3 

23750/23750 [ 123750/23750 

[ ] - 174s 7ms/step - loss: 0.3256 - acc: 
0.8673 - val_loss: 0.3266 - val_acc: 0.8600 


接 下 来 ， 使 用 训练 好 的 模型 测试 测试 集 。 


model result = rnn type model.evaluate(input test pad, target test) 


输出 如 下 。 





























25000/25000 [ 125000/25000 
[ ] - 60s 2ms/step 











print("Accuracy: {0:.2%}".format (model_result[1])) 
Output: 
Accuracy: 85.26% 


现在 ， 查 看 一 些 错误 分 类 文本 的 例子 。 


首先 ， 计 算 测 试 集中 前 1000 个 序列 的 预测 类 别 ， 然 后 获取 真实 的 类 别 值 。 对 它们 进 
行 比较 ， 并 获得 一 个 不 完全 匹配 的 索引 列表 。 
















































































target predicted = rnn type model.predict(x-input test pad[0:1000]) 
target predicted = target predicted.T[0] 


4 FH BRED IR EXET 0.5 的 所 有 值 都 将 被 视 为 正面 情感 ， 而 其 他 值 将 被 视 为 负面 情感 。 
























































class predicted = np.array([1.0 if prob>0.5 else 0.0 for prob in target 
predicted]) 


现在 ， 获 取 这 1000 个 序列 的 实际 类 别 。 
class_actual = np.array(target_test[0:1000]) 


从 输出 中 得 到 不 正确 的 样本 。 
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incorrect_samples = np.where(class_predicted != class_actual) 
incorrect samples = incorrect samples[0] 
len(incorrect samples) 


输出 如 下 。 


122 
可 以 看 到 ， 这 些 文本 中 有 122 个 文本 被 错误 分 类 。 也 就 是 说 ， 在 预测 的 1000 个 文本 中 ， 
有 12.2% 的 文本 被 错误 分 类 ”。 下 面 来 看 看 第 一 个 被 错误 分 类 的 文本 。 


index = incorrect_samples[0] 


















































index 


输出 如 下 。 





incorrectly predicted text = input text _ test [index] 
incorrectly predicted text 


输出 如 下 。 


'I am not a big music video fan. I think music videos take away personal 
feelings about a particular song.. Any song. In other words, creative 
thinking goes out the window. Likewise, Personal feelings aside about 
MJ, toss aside. This was the best music video of alltime. Simply wonderful. 
It was a movie. Yes folks it was. Brilliant! You had awesome acting, 
awesome choreography, and awesome singing. This was spectacular. Simply 
a plot line of a beautiful young lady dating a man, but was he a man 
or something sinister. Vincent Price did his thing adding to the song 


and video. MJ was MJ, enough said about that. This song was to video, 














what Jaguars are for cars. Top of the line, PERFECTO. What was even 
better about this was, that we got the real MJ without the thousand 
facelifts. Though ironically enough, there was more than enough makeup 
and costumes to go around. Folks go to Youtube. Take 14 mins. out of 
your life and see for yourself what a wonderful work of art this particular 


video really is.' 


下 面 查 看 这 个 样本 对 应 的 模型 输 晶 











值 以 及 真实 值 。 


Co 









































D 原文 此 处 为 “12.1% 的 文本 被 错误 分 类 ” 应 为 作者 笔 误 。 一 一 译 者 注 
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target_predicted [index] 


输出 如 下 。 


0.1529513 


class actual [index] 


输出 如 下 。 























下 面 根据 一 组 新 的 数据 样本 来 测试 训练 的 模型 并 查看 结果 。 



































test sample 1 = "This movie is fantastic! I really like it because it 
is so good!" 

test sample 2 = "Good movie!" 

test sample 3 = "Maybe I like this movie." 

test sample 4 = "Meh ..." 

test sample 5 = "If I were a drunk teenager then this movie might be good." 
test sample 6 - "Bad movie!" 

test sample 7 = "Not a good movie!" 

test sample 8 = "This movie really sucks! Can I get my money back please?" 
test samples = [test sample 1, test sample 2, test sample 3, test sample 4, 
test sample 5, test sample 6, test sample 7, test sample 8] 


然后 将 它们 转化 为 整数 标记 。 





test samples tokens = tokenizer obj.texts to sequences (test_samples) 


下 一 步 进 行 填充 操作 。 





test samples tokens pad = pad sequences(test samples tokens, 
maxlen=max num tokens, 

padding-seq pad, truncating-seq pad) 
test samples tokens pad.shape 


输出 如 下 。 
(8, 544) 


最 后 ， 将 样本 输入 模型 中 。 


O 











rnn type model.predict(test samples tokens pad) 
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输出 如 下 。 


array([[0.9496784 ], 
0.9552593 ], 

.9115685 ], 
.9464672 ], 
.876727134], 
.81883633] 
.33248223] 


.15345531 ]], dtype-float32) 


近 0 的 值 意味 着 负面 情感 ， 而 接近 1 的 值 意味 着 正面 情感 。 最 后 ， 注 意 在 每 次 训 
时 ， 这 些 数 字 都 会 有 所 不 同 。 
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oO. O O- CD © 
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练 模 型 

























































































本 章 介 绍 了 一 个 有 趣 的 应 用 程 请 情感 分 析 。 很 多 公司 使 用 情感 分 析 来 跟踪 客户 
对 其 产品 的 满意 度 ， 甚 至 政府 也 使 用 情感 分 析 来 追踪 公民 对 他 们 未 来 想 要 做 的 事情 的 满 
意 度 。 

接 下 来 ， 我 们 将 重点 介绍 一 些 可 用 于 半 监 督 和 无 监督 应 用 的 高 级 深度 学 习 架 构 。 
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自动 编码 器 Cautoencoder) 网 络 是 目前 广泛 使 用 的 深度 学 习 架 构 之 一 。 它 主要 用 于 
效 解码 任务 的 无 监督 学 习 ， 还 可 以 通过 学 习 特 定数 据 集 的 编码 或 表示 来 降 维 。 在 本 章 中 ， 
将 通过 使 用 自动 编码 器 ， 展 示 如 何 通 过 构建 具有 相同 维度 但 噪声 较 小 的 数据 集 对 另 一 个 数 
据 集 进 行 去 噪 。 为 了 在 实践 中 使 用 这 个 概念 ， 这 里 将 从 MNIST 数据 集中 提取 重要 特征 ， 
并 尝试 以 此 来 显著 增强 性 能 。 

本 章 将 介绍 以 下 内 容 。 

@ 自动 编码 器 简介 。 

@ 自动 编码 器 的 示例 。 

@ 自动 编码 器 架构 。 

e 压缩 MNIST 数据 集 。 
卷 积 自动 编码 器 。 
e 降 品 自动 编码 器 。 
@ 自动 编码 器 的 应 用 。 




















































































































































































































13.1 ”自动 编码 器 简介 


自动 编码 器 是 另 一 种 可 用 于 许多 有 趣 任务 的 深度 学 习 架 构 ， 但 它 也 可 以 被 视 为 原始 
前 馈 神经 网 络 的 变 体 ， 其 中 ， 输 出 上 共有 与 输入 相同 的 维度 。 如 图 13.1 所 示 ， 自 动 编码 器 
的 工作 方式 是 将 数据 样本 (x1,…, x6) 提供 给 网 络 ， 它 将 尝试 在 Ly 层 中 学 习 此 数据 的 低 
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维 表 示 , 我 们 可 以 将 它 称 为 以 低 维 表示 形式 对 数据 





集 进行 编码 的 方法 。 然后， 网 络 的 第 二 部 分 (可 称 


为 解码 器 ) 负责 构造 此 表示 Qu. X) 的 输出 。 可 
以 将 网 络 从 输入 数据 中 学 习 的 中 间 低 维 表示 视 为 





其 压缩 版 本 。 








与 我 们 迄今 为 止 看 到 的 所 有 其 他 深度 学 习 架 
构 没 有 太 大 差别 , 自动 编码 器 也 同样 使 用 反 向 传播 






































算法 。 




















自动 编码 器 神经 网 络 是 一 种 无 监督 学 习 算 




















法 ， 它 应 用 反 向 传播 ， 将 目标 值 设置 为 与 输入 相 





等 的 值 。 











13.2 ”自动 编码 器 的 示例 


本 章 将 演示 使 用 MNIST 数据 集 的 自动 5 
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图 13.1 ”自动 编码 器 的 通用 结构 



































ji 码 器 的 多 种 变 体 的 一 些 示 例 。 作 为 具体 示 











例 ， 假 设 输 入 x 是 来 自 28x28 像素 (784 像素 ) 图 像 的 像素 值 。 输入 数据 样本 的 数量 是 n = 
784, LEPA ss = 392 个 隐藏 单位 。 由 于 输出 将 与 输入 数据 样本 具有 相同 的 维度 ， 





版 本 a(Z?)E 
个 像素 。 





自动 编码 器 依赖 于 以 下 事实 : H 












































因此 yER784。 输 入 层 中 的 神经 元 数量 为 784， 其 次 是 中 间 层 L 中 的 392 个 神经 元 。 
现在 网 络 计算 出 一 个 低 维 表示 ， 这 是 输入 的 是 压缩 版 本 。 然 后 ， 网 络 将 输入 的 压缩 


























R392 传送 到 网 络 的 第 二 部 分 , 这 里 尽 可 能 用 该 压缩 版 本 重建 输入 的 784 
























































习 了 输入 数 








图 像 像素 表示 的 输入 样本 将 以 某 种 方式 相关 联 ， 然 
































居 的 低 维 表示 。 





后 自动 编码 器 将 使 用 该 事实 来 重 构 它们 。 自 动 编码 器 有 点 类 似 于 降 维 法 ， 因 为 它们 也 学 


总 结 一 下 ， 典 型 的 自动 编码 器 将 由 如 下 3 部 分 组 成 。 





e 编码 器 部 分 ， 负 责 将 输入 压缩 到 低 维 空间 。 











e 中 间 





图 13.2 所 示 为 典型 自动 编码 器 的 3 个 主要 部 分 。 




















码 ， 它 是 编码 器 的 中 间 结 果 ， 可 以 理解 为 输入 的 低 维 表示 。 
e 解码 器 ， 负 责 使 用 中 间 码 重建 原始 输入 。 
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输入 


中 间 码 





























正如 我 们 所 提 到 的 ， 自 动 




















Nu 














相同 ， 因 此 自动 编码 器 不 能 用 于 压缩 任务 。 























13.3 ”自动 编码 器 架构 











激励 读者 ， 不 打算 在 本 章 重 新 发 
完全 连接 的 神经 网 络 ， 中 间 码 部 



































如 前 所 述 ， 典 型 的 自动 编码 器 由 3 部 分 组 成 ， 下 寿 


图 13.2 动 编码 器 运算 过 程 


ij 码 器 会 学 习 输 入 的 压缩 表示 ， 然 后 将 它 输入 多 





三 部 分 尝试 重建 输入 。 重 建 的 输入 类 似 于 原始 的 输入 ， 但 它 不 能 保 记 





























更 详细 地 讨论 这 3 个 部 分 。 





输出 


a 


E = HBA 


与 原始 输入 完全 








? 





为 了 


明 轮 子 。 如 图 13.3 所 示 ， 编 码 器 -解码 器 部 分 只 是 一 个 








分 是 男 一 个 神经 网 络 ， 但 它 不 是 全 连接 网 络 。 中 | 





























































































































分 的 维度 是 可 控 的 ， 可 以 将 它 视 为 超 参数 。 
输入 输出 
EC a 9HNB 0.0 Bi 
B XEXB E 
—— 一 —————— 
编码 器 解码 器 
图 13.3 自动 编码 器 的 常用 编码 器 -解码 器 架构 
在 深入 使 用 自动 编码 器 压缩 MNIST 数据 集 之 前 ， 这 里 将 列 出 一 组 可 用 了 





























-微调 自 





司 码 部 


动 
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编码 器 模型 的 超 参 数 。 主 要 有 以 下 4 个 超 参 数 。 

e 中 间 码 部 分 的 长 度 : 这 里 指 的 是 中 间 层 中 的 单元 数 。 在 这 一 层 中 拥有 的 单位 数 越 
少 ， 得 到 的 输入 表示 的 压缩 程度 就 越 高 。 

e 编码 器 和 解码 器 中 的 层 数 : 正如 前 文 所 提 到 的 ， 编 码 器 和 解码 器 只 不 过 是 一 个 
完全 连接 的 神经 网 络 ， 可 以 通过 添加 更 多 层 来 增加 网 络 深 度 。 

e 每 层 的 单位 数 : 可 以 在 每 一 层 中 使 用 不 同 数 量 的 单位 。 编码 器 和 解码 器 的 形状 与 
DeconvNets 非常 相似 ， 其 中 ， 编 码 器 中 的 层 数 越 接 近 中 间 码 部 分 就 越 小 ， 而 当 
接近 解码 器 的 最 后 一 层 时 就 开始 增加 。 

e 模型 损失 函数 : 可 以 使 用 不 同 的 损失 函数 ， 如 MSE BKAZ MI Ccross-entropy ). 

在 定义 了 这 些 超 参 数 并 指定 它们 的 初始 值 之 后 ， 可 以 使 用 反 向 传播 算法 来 训练 
网 络 。 



































































































































































































































13.4 压缩 MNIST 数据 集 


在 本 节 中 ， 我 们 将 构建 一 个 简单 的 自动 编码 器 ， 它 可 用 于 压缩 MNIST 数据 集 。 
首先 , 将 此 数据 集 的 图 像 提 供给 编码 器 部 分 ,编码 器 部 分 将 尝试 为 它们 学 习 低 维 的 压 
缩 表 示 。 然 后 ， 我 们 将 尝试 在 解码 器 部 分 再 次 构造 输入 图 像 。 




































































13.4.1 MNIST 数据 集 
我 们 通过 使 用 TensorFlow 的 辅助 函数 获取 MNIST 数据 集 来 开始 实现 自动 编码 器 。 
首先 ， 为 这 个 实现 导入 必要 的 包 


$matplotlib inline 























import numpy as np 

import tensorflow as tf 

import matplotlib.pyplot as plt 

from tensorflow.examples.tutorials.mnist import input_data 

mnist dataset = input data.read data sets('MNIST data', validation_size=0) 


输出 如 下 。 


Extracting MNIST data/train-images-idx3-ubyte.gz 
Extracting MNIST data/train-labels-idxl-ubyte.gz 
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Extracting MNIST_data/tl0k-images-idx3-ubyte.gz 
Extracting MNIST data/tlO0k-labels-idxl-ubyte.gz 


然后 ， 展 示 数 据 集中 的 一 些 样本 图 像 。 


























# Plotting one image from the training set. 
image = mnist_dataset.train.images [2] 
plt.imshow(image.reshape((28, 28)), cmap='Greys_r') 


输出 如 图 13.4 所 示 。 


# Plotting one image from the training set. 





image = mnist_dataset.train.images [2] 
plt.imshow(image.reshape((28, 28)), cmap='Greys_r') 


输出 如 图 13.5 所 示 。 








0 5 10 15 20 25 0 5 10 15 20 25 

















图 13.4 MNIST 数据 集中 的 一 些 样本 图 像 图 13.5. MNIST 数据 集中 的 一 些 样本 图 像 























13.4.2 ”构建 模型 
为 了 构建 编码 器 ， 首 先 需 要 和 弄 清楚 每 幅 MNIST 图 像 具 有 多 少 像素 ， 以 便 计 算出 编 
码 器 输入 层 的 大 小 。 来 自 MNIST 数据 集 的 每 幅 图 像 是 28x28 KAR, ALC AHR ee 
为 一 个 包含 28x28 = 784 个 像素 值 的 向 量 。 这 里 没有 归 一 化 MNIST 的 图 像 ， 因 为 它们 已 
经 归 一 化 了 。 
现在 开始 构建 模型 的 3 个 部 分 。 在 此 实现 中 , 我 们 将 使 用 一 个 非常 简单 的 体系 结构 ， 
其 中 有 单个 隐藏 展 ， 然 后 是 激活 ReLU 函数 ， 如 图 13.6 所 示 。 
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编码 器 解码 器 
e e 


E 


输入 隐藏 层 输出 
MNIST 数据 集 实现 的 编码 器 -解码 器 架构 


e o © 
© 
i 








图 13.6 


























下 面 继续 按照 前 面 的 解释 来 实现 这 个 简单 的 编码 器 -解码 器 架构 。 


























# The size of th ncoding layer or the hidden layer. 
encoding_layer_dim = 32 


img size = mnist_dataset.train.images.shape[1] 


defining placeholder variables of the input and target values 

inputs values = tf.placeholder(tf.float32, (None, img size), 
name-"inputs values") 

targets values = tf.placeholder(tf.float32, (None, img size), name= 


"Largets values") 





Defining an encoding layer which takes the input values and incode them. 
encoding layer = tf.layers.dense(inputs values, encoding layer dim, 


activation-tf.nn.relu) 
Defining the logit layer, which is a fully-connected layer but without 
any activation applied to its output 


logits layer = tf.layers.dense(encoding layer, img size, activation=None) 


Adding a sigmoid layer after the logit layer 





decoding layer = tf.sigmoid(logits layer, name = "decoding layer") 


use the sigmoid cross entropy as a loss function 
model loss = tf.nn.sigmoid cross entropy with logits(logits-logits layer, 
labels-targets values) 














Averaging the loss values accross the input data 
model cost = tf.reduce mean (model loss) 





—— yp 


13.4 压缩 MNIST 数据 集 


# Now we have a cost function that we need to optimize using Adam Optimizer 


model_optimizier = 











DS 


既然 








13.4.3 
本 节 将 开始 





大 小 的 数据 集中 获取 一 批 随机 图 
现在 通过 创建 会 话 变 


creating the session 


sess = 


num_epochs 





Y 


pus 




















入 训练 阶段 。 这 里 将 使 














tf.train.AdamOptimizer().minimize (model cost) 
























































tf.Session() 


接 下 来 ， 进 入 训练 阶段 。 


= 20 


train batch size = 


200 


量 来 开始 本 节 ， 该 变 

















sess.run(tf.global variables initializer()) 


for e in range (num epochs): 








Bh. BGRGZSIH MET. Butegt ur EAE RA, Ha MEHER T - 


训练 模型 

















] mnist_dataset 对 象 的 辅助 函数 ， 以 便 从 特定 
像 ， 然 后 在 这 批 图 像 上 运行 优化 器 。 


将 负责 执行 之 前 定义 的 计算 图 


o 


for ii in range(mnist dataset.train.num examples//train batch size): 


input batch - 
feed dict - 


input batch[0]) 


input batch cost, 


dict-feed dict) 


print ("Epoch: 


输出 如 下 。 











{}/{}.. 


"Training loss:{:. 











Epoch: 20/20... Training loss: 
Epoch: 20/20... Training loss: 
Epoch: 20/20... Training loss: 
Epoch: 20/20... Training loss: 
Epoch: 20/20... Training loss: 
Epoch: 20/20... Training loss: 
Epoch: 20/20... Training loss: 


{inputs_values: 


.". format (et+1, 


input batch[0], 


num epochs), 


mnist dataset.train.next batch(train batch size) 
targets values: 


_=sess.run([model_cost,model_optimizier], feed 


3f)".format(input batch cost)) 


CO O O CQ O. Qo 


.091 
.091 
.093 
.093 
.095 
.095 
.089 
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Epoch: 20/20... Training loss: 0.095 
Epoch: 20/20... Training loss: 0.095 
Epoch: 20/20... Training loss: 0.096 
Epoch: 20/20... Training loss: 0.094 
Epoch: 20/20... Training loss: 0.093 
Epoch: 20/20... Training loss: 0.094 
Epoch: 20/20... Training loss: 0.093 
Epoch: 20/20... Training loss: 0.095 
Epoch: 20/20... Training loss: 0.094 
Epoch: 20/20... Training loss: 0.096 
Epoch: 20/20... Training loss: 0.092 
Epoch: 20/20... Training loss: 0.093 
Epoch: 20/20... Training loss: 0.091 
Epoch: 20/20... Training loss: 0.093 
Epoch: 20/20... Training loss: 0.091 
Epoch: 20/20... Training loss: 0.095 
Epoch: 20/20... Training loss: 0.094 
Epoch: 20/20... Training loss: 0.091 
Epoch: 20/20... Training loss: 0.096 
Epoch: 20/20... Training loss: 0.089 
Epoch: 20/20... Training loss: 0.090 
Epoch: 20/20... Training loss: 0.094 
Epoch: 20/20... Training loss: 0.088 
Epoch: 20/20... Training loss: 0.094 
Epoch: 20/20... Training loss: 0.093 
Epoch: 20/20... Training loss: 0.091 
Epoch: 20/20... Training loss: 0.095 
Epoch: 20/20... Training loss: 0.093 
Epoch: 20/20... Training loss: 0.091 
Epoch: 20/20... Training loss: 0.094 
Epoch: 20/20... Training loss: 0.090 
Epoch: 20/20... Training loss: 0.091 
Epoch: 20/20... Training loss: 0.095 
Epoch: 20/20... Training loss: 0.095 
Epoch: 20/20... Training loss: 0.094 
Epoch: 20/20... Training loss: 0.092 
Epoch: 20/20... Training loss: 0.092 
Epoch: 20/20... Training loss: 0.093 
Epoch: 20/20... Training loss: 0.093 
在 运行 前 面 的 代码 段 后 ， 网 络 已 经 训练 了 20 次， 我 们 将 获得 一 个 训练 好 的 模型 ， 该 模 





























型 能 够 从 MNIST 数据 集 的 测试 集中 生成 或 重建 图 像 。 请 记 住 ， 如 果 我 们 提供 的 图 像 与 训练 
模型 的 图 像 不 相似 ， 那 么 重建 过 程 将 无 法 进行 ， 因 为 自动 编码 器 只 能 用 于 特定 的 数据 。 
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接 下 来 ， 通 过 从 测试 集中 抽取 一 些 图 像 来 测试 训练 模型 ， 并 查看 模型 是 否 能 在 解码 
器 部 分 中 重建 它们 。 
fig, axes = plt.subplots(nrows-2, ncols-10, sharex=True, sharey=True, 
figsize=(20,4) ) 





























input_images = mnist_dataset.test.images[:10] 
reconstructed_images, compressed_images = sess.run([decoding_layer, 
encoding_layer], feed_dict={inputs_values: input_images}) 








for imgs, row in zip([input_images, reconstructed_images], axes): 


for img, ax in zip(imgs, row): 


ax.imshow(img.reshape((28, 28)), cmap='Greys_r') 
ax.get xaxis().set visible(False) 
ax.get yaxis().set visible(False) 


fig.tight layout (pad=0.1) 


输出 如 图 13.7 所 示 。 
四 区 


图 13.7 ”原始 测试 集中 的 图 像 〈 第 一 行 ) 及 其 重 构 的 样本 〈 第 二 行 ) 


在 图 13.7 中 ， 重 建 的 图 像 非常 接近 输入 图 像 ， 但 我 们 可 以 通过 在 编码 器 -解码 器 部 
分 中 使 用 卷 积 层 获 得 更 好 的 图 像 。 


13.5” 卷 积 自动 编码 器 


之 前 的 简单 实现 在 尝试 从 MNIST 数据 集中 重建 输入 图 像 时 做 得 很 好 ， 但 我 们 可 以 
通过 在 自动 编码 器 的 编码 器 和 解码 器 中 使 用 卷 积 层 来 获得 更 好 的 表现 。 蔡 换 的 结果 网 络 
称 为 卷 积 自动 编码 器 (convolutional autoencoder，CAE )。 这 种 能 够 替换 部 分 层 的 灵活 性 
自动 编码 器 的 一 大 优势 ， 并 使 它们 适用 于 不 同 的 领域 。 

IF CAE 的 架构 在 网 络 的 解码 器 部 分 中 包含 上 采样 层 ， 以 获得 图 像 的 重建 版 本 。 


13.5.1 数据 集 
在 此 实现 中 ， 我 们 可 以 使 用 任何 类 型 的 图 像 数据 集 ， 并 查看 自动 编码 器 的 卷 积 版 本 
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将 如 何 发 挥 作用 。 因 为 这 次 仍 将 使 用 MNIST 数据 集 ， 所 以 现在 从 使 用 TensorFlow 辅助 

















函数 获取 数据 集 开 始 。 
$matplotlib inline 
import numpy as np 


import tensorflow as tf 
import matplotlib.pyplot as plt 

















from tensorflow.examples.tutorials.mnist import input_data 


mnist dataset = input data.read data sets('MNIST data', validation size-0) 


输出 如 下 。 


from tensorflow.examples.tutorials.mnist import input_data 


mnist_dataset = input_data.read_data_sets('MNIST data', validation_size=0) 




















现在 从 数据 集中 显示 一 个 数字 。 











# Plotting one image from the training set. 
image = mnist_dataset.train.images [2] 


Extracting MNIST data/train-images-idx3-ubyte.gz 
Extracting MNIST data/train-labels-idxl-ubyte.gz 
Extracting MNIST_data/tl0k-images-idx3-ubyte. 
Extracting MNIST data/tlO0k-labels-idxl-ubyte. 


gz 
gz 


plt.imshow(image.reshape((28, 28)), cmap='Greys_r') 


输出 结果 如 图 13.8 所 示 。 





10 15 20 25 




















到 13.8 A MNIST 数据 集 的 样本 





























M% 


一 | 298 | 一 


13.5. 卷 积 自 动 编码 器 


13.5.2 ”构建 模型 


在 该 实现 中 ， 我 们 将 使 用 步 长 〈stride) 为 1 的 卷 积 层 ， 并 且 将 padding 参数 设置 为 
same， 这 样 就 不 会 改变 图 像 的 高 度 或 宽度 。 此 外 ， 这 里 使 用 一 组 最 大 池 化 层 来 减 小 图 像 
的 宽度 和 高 度 ， 从 而 构建 图 像 的 压缩 低 维 表 示 。 

接 下 来 继续 构建 网 络 的 核心 。 


learning_rate = 0.001 




















X 






































# Define the placeholder variable sfor the input and target values 
inputs values = tf.placeholder(tf.float32, (None, 28,28,1), 
name-"inputs values") 

targets values = tf.placeholder(tf.float32, (None, 28,28,1), 


name-"targets values") 





Defining the Encoder part of the netowrk 


Defining the first convolution layer in the encoder parrt 





The output tenosor will be in the shape of 28x28x16 





conv layer 1 = tf.layers.conv2d(inputs-inputs values, filters=16, 


kernel size-(3,3), padding='same', activation-tf.nn.relu) 








The output tenosor will be in the shape of 14x14x16 





maxpool layer 1 = tf.layers.max pooling2d(conv layer 1, pool size-(2,2), 


strides-(2,2), padding='same') 





f The output tenosor will be in the shape of 14x14x8 
conv layer 2 = tf.layers.conv2d(inputs-maxpool layer 1, filters-8, 


kernel size-(3,3), padding='same', activation-tf.nn.relu) 





# The output tenosor will be in the shape of 7x7x8 
maxpool layer 2 = tf.layers.max pooling2d(conv layer 2, pool size-(2,2), 


strides-(2,2), padding='same') 





f The output tenosor will be in the shape of 7x7x8 
conv layer 3 = tf.layers.conv2d(inputs-maxpool layer 2, filters-8, 


kernel size-(3,3), padding='same', activation-tf.nn.relu) 


f The output tenosor will be in the shape of 4x4x8 








ncoded layer = tf.layers.max pooling2d(conv layer 3, pool size-(2,2), 
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strides=(2,2), padding='same') 


# Defining the Decoder part of the netowrk 


# Defining the first upsampling layer in the decoder part 


























# The output tenosor will be in the shape of 7x7x8 

upsample layer 1 = tf.image.resize images (encoded layer, size=(7,7), 
method-tf.image.ResizeMethod.NEAREST NEIGHBOR) 

f The output tenosor will be in the shape of 7x7x8 

conv layer 4 = tf.layers.conv2d(inputs-upsample layer 1, filters=8, 


kernel size-(3,3), 


padding='same', 


activation=tf.nn.relu) 























# The output tenosor will be in the shape of 14x14x8 

upsample layer 2 = tf.image.resize images (conv layer 4, size=(14,14), 
method-tf.image.ResizeMethod.NEAREST NEIGHBOR) 

f The output tenosor will be in the shape of 14x14x8 


conv layer 5 


kernel size-(3,3), 


tf.layers.conv2d(inputs-upsample layer 2, 


padding='same', 





filters=8, 


activation=tf.nn.relu) 























# The output tenosor will be in the shape of 28x28x8 
upsample layer 3 = tf.image.resize images(conv layer 5, size=(28,28), 
method-tf.image.ResizeMethod.NEAREST NEIGHBOR) 
The output tenosor will be in the shape of 28x28x16 
conv6 = tf.layers.conv2d(inputs-upsample layer 3, filters=16, 


kernel size-(3,3), 


The output tenosor will b 


padding='same', 


in th 





activation=tf.nn.relu) 


of 28x28x1 








logits layer 
padding='same', activation=None) 
# feeding the logits values to the 


reconstructed images 


tf.layers.conv2d(inputs=conv6, 


shap 


filters-1, kernel size-(3,3), 





sigmoid activation function to get the 


decoded layer = tf.nn.sigmoid(logits layer) 





f feeding the logits to sigmoid while calculating the cross entropy 


model loss 


logits-logits layer) 


tf.nn.sigmoid cross entropy with logits(labels-targets values, 
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# Getting the model cost and defining the optimizer to minimize it 





model cost = tf.reduce mean (model loss) 
model optimizer - 


tf.train.AdamOptimizer(learning rate).minimize (model cost) 


令 人 高 兴 的 是 ,我 们 构建 了 包含 卷 积 神经 网 的 解码 器 -解码 器 部 分 ， 同 时 展示 了 如 何 
在 解码 器 部 分 重建 具有 相同 维度 的 输入 图 像 。 












































13.5.3 ”训练 模型 

既然 我 们 已 经 建立 了 模型 ， 就 可 以 通过 从 MNIST 数据 集 生成 随机 批 次 数据 ， 并 将 
它们 提供 给 先前 定义 的 优化 器 来 进入 学 习 阶段 。 

现在 从 创建 会 话 变量 开始 ， 它 将 负责 执行 之 前 定义 的 计算 图 。 









































u 


sess = tf.Session() 
num_epochs = 20 
train batch size = 200 


sess.run(tf.global variables initializer ()) 


for e in range (num epochs): 
for ii in range(mnist dataset.train.num examples//train batch size): 
input batch = mnist dataset.train.next batch(train batch size) 
input images - input batch[0].reshape((-1, 28, 28, 1)) 


input batch cost, = sess.run([model cost, model optimizer], 





feed dict-(inputs values: input images,targets values: input images]) 





print("Epoch: {}/{}...".format(e+l, num epochs), 


"Training loss: (:.3f)".format(input batch cost)) 


输出 如 下 。 








Epoch: 20/20... Training loss: 0.102 
Epoch: 20/20... Training loss: 0.099 
Epoch: 20/20... Training loss: 0.103 
Epoch: 20/20... Training loss: 0.102 
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Epoch: 20/20... Training loss: 0.100 
Epoch: 20/20... Training loss: 0.101 
Epoch: 20/20... Training loss: 0.098 
Epoch: 20/20... Training loss: 0.103 
Epoch: 20/20... Training loss: 0.104 
Epoch: 20/20... Training loss: 0.103 
Epoch: 20/20... Training loss: 0.098 
Epoch: 20/20... Training loss: 0.102 
Epoch: 20/20... Training loss: 0.098 
Epoch: 20/20... Training loss: 0.099 
Epoch: 20/20... Training loss: 0.103 
Epoch: 20/20... Training loss: 0.104 
Epoch: 20/20... Training loss: 0.101 
Epoch: 20/20... Training loss: 0.105 
Epoch: 20/20... Training loss: 0.102 
Epoch: 20/20... Training loss: 0.102 
Epoch: 20/20... Training loss: 0.100 
Epoch: 20/20... Training loss: 0.099 
Epoch: 20/20... Training loss: 0.102 
Epoch: 20/20... Training loss: 0.102 
Epoch: 20/20... Training loss: 0.104 
Epoch: 20/20... Training loss: 0.101 
Epoch: 20/20... Training loss: 0.099 
Epoch: 20/20... Training loss: 0.098 
Epoch: 20/20... Training loss: 0.100 
Epoch: 20/20... Training loss: 0.101 
Epoch: 20/20... Training loss: 0.100 
Epoch: 20/20... Training loss: 0.100 
Epoch: 20/20... Training loss: 0.101 
Epoch: 20/20... Training loss: 0.098 
Epoch: 20/20... Training loss: 0.101 
Epoch: 20/20... Training loss: 0.103 
Epoch: 20/20... Training loss: 0.103 
Epoch: 20/20... Training loss: 0.102 
Epoch: 20/20... Training loss: 0.101 
Epoch: 20/20... Training loss: 0.100 
Epoch: 20/20... Training loss: 0.101 
Epoch: 20/20... Training loss: 0.102 
Epoch: 20/20... Training loss: 0.103 
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Epoch: 20/20... Training loss: 0.103 
Epoch: 20/20... Training loss: 0.103 
Epoch: 20/20... Training loss: 0.099 
Epoch: 20/20... Training loss: 0.101 
Epoch: 20/20... Training loss: 0.096 
Epoch: 20/20... Training loss: 0.104 
Epoch: 20/20... Training loss: 0.104 
Epoch: 20/20... Training loss: 0.103 
Epoch: 20/20... Training loss: 0.103 
Epoch: 20/20... Training loss: 0.104 
Epoch: 20/20... Training loss: 0.099 
Epoch: 20/20... Training loss: 0.101 
Epoch: 20/20... Training loss: 0.101 
Epoch: 20/20... Training loss: 0.099 
Epoch: 20/20... Training loss: 0.100 
Epoch: 20/20... Training loss: 0.102 
Epoch: 20/20... Training loss: 0.100 
Epoch: 20/20... Training loss: 0.098 
Epoch: 20/20... Training loss: 0.100 
Epoch: 20/20... Training loss: 0.097 
Epoch: 20/20... Training loss: 0.102 


运行 前 面 的 代码 段 后 , 网络 已 经 被 训练 了 20 次 , 我 们 将 获得 一 个 训练 好 的 CAE, 
因此 现在 通过 从 MNIST 数据 集中 抽取 类 似 的 图 像 来 测试 这 个 模型 。 



































fig, axes = plt.subplots (nrows=2, ncols=10, sharex=True, sharey=True, 
figsize=(20,4) ) 
input_images = mnist_dataset.test.images[:10] 


reconstructed_images = sess.run(decoded_layer, feed_dict={inputs_values: 





input_images.reshape((10, 28, 28, 1))}) 





for imgs, row in zip([input_images, reconstructed_images], axes): 
for img, ax in zip(imgs, row): 
ax.imshow(img.reshape((28, 28)), cmap='Greys_r') 
ax.get xaxis().set visible(False) 
ax.get yaxis().set visible(False) 
fig.tight layout (pad=0.1) 


输出 如 图 13.9 所 示 。 
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图 13.9 原始 测试 图 像 (第 
卷 积 自动 编码 器 重 构 的 样本 
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我 们 可 以 通过 强制 自动 编码 器 学 习 有 关 输 入 数据 的 更 重要 的 特征 , 来 进一步 增强 
自动 编码 器 的 性 能 。 通 过 向 输入 图 像 添 加 噪声 ， 并 以 原始 噪声 作为 目标 ,模型 将 尝试 
消除 此 噪声 并 学 习 有 关 它 们 的 重要 特征 ， 以 便 输 出 有 意义 的 重 构图 像 。 这 种 CAE W 
构 可 用 于 从 输入 图 像 中 去 除 噪 声 。 自 动 编码 器 的 这 种 特定 变 体 称 为 降 噪 自动 编码 器 
(denoising autoencoder)， 如 图 13.10 所 示 。 
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原始 图 像 


712] / oly 














添加 噪声 后 的 输入 
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图 13.10 ”添加 高 斯 噪声 前 后 的 原始 图 像 和 噪声 图 像 的 样本 




















任务 。 在 这 种 降 品 自动 编码 器 架构 中 






































下 面 从 实现 图 13.11 中 的 架构 来 开始 完成 这 
额外 添加 的 唯一 东西 是 原始 输入 图 像 中 的 一 些 
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输出 


原始 图 像 添加 噪声 后 的 输入 中 间 码 
813.1 降 品 自 动 编码 器 的 常规 架构 
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13.6.1 构建 模型 
在 此 实现 中 ， 我 们 将 在 编码 器 和 解码 器 部 分 中 使 用 具有 更 多 层 的 神经 网 络 ， 其 原因 
是 现在 任务 的 复杂 性 已 经 提高 。 
模型 剩 下 的 部 分 与 之 前 的 CAE 完全 相同 , 但 添加 了 额外 的 层 来 帮助 模型 从 嘲 杂 的 图 
像 中 重建 无 噪声 图 像 。 


接 下 来 ， 继 续 构 建 这 个 模型 。 

















































































































A 


learning rate = 0.001 





Define the placeholder variable sfor the input and target values 
inputs values = tf.placeholder(tf.float32, (None, 28, 28, 1), 





name-'inputs values') 
targets values = tf.placeholder(tf.float32, (None, 28, 28, 1), 





name-'targets values') 





Defining the Encoder part of the netowrk 
Defining the first convolution layer in the encoder parrt 


The output tenosor will be in the shape of 28x28x32 





conv layer 1 = tf.layers.conv2d(inputs-inputs values, filters=32, 


kernel size-(3,3), padding='same', activation-tf.nn.relu) 








The output tenosor will be in the shape of 14x14x32 





maxpool layer 1 = tf.layers.max pooling2d(conv layer 1, pool size-(2,2), 


strides-(2,2), padding='same') 





f The output tenosor will be in the shape of 14x14x32 
conv layer 2 = tf.layers.conv2d(inputs-maxpool layer 1, filters=32, 


kernel size-(3,3), padding='same', activation-tf.nn.relu) 


f The output tenosor will be in the shape of 7x7x32 





maxpool layer 2 = tf.layers.max pooling2d(conv layer 2, pool size-(2,2), 


strides-(2,2), padding='same') 





f The output tenosor will be in the shape of 7x7x16 
conv layer 3 = tf.layers.conv2d(inputs-maxpool layer 2, filters=16, 


kernel size-(3,3), padding='same', activation-tf.nn.relu) 


# The output tenosor will be in the shape of 4x4x16 
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encoding layer = tf.layers.max pooling2d(conv layer 3, pool_size=(2,2), 


strides-(2,2), padding-'same') 


# Defining the Decoder part of the netowrk 
f Defining the first upsampling layer in the decoder part 





f The output tenosor will be in the shape of 7x7x16 
upsample layer 1 = tf.image.resize images (encoding layer, size-(7,7), 
method-tf.image.ResizeMethod.NEAREST NEIGHBOR) 























f The output tenosor will be in the shape of 7x7x16 





conv layer 4 = tf.layers.conv2d(inputs-upsample layer 1, filters=16, 


kernel size-(3,3), padding='same', activation-tf.nn.relu) 





# The output tenosor will be in the shape of 14x14x16 
upsample layer 2 = tf.image.resize images (conv layer 4, size=(14,14), 
method-tf.image.ResizeMethod.NEAREST NEIGHBOR) 























f The output tenosor will be in the shape of 14x14x32 
conv layer 5 = tf.layers.conv2d(inputs-upsample layer 2, filters=32, 


kernel size-(3,3), padding='same', activation-tf.nn.relu) 


f The output tenosor will be in the shape of 28x28x32 





upsample layer 3 = tf.image.resize images(conv layer 5, size=(28,28), 
method-tf.image.ResizeMethod.NEAREST NEIGHBOR) 























The output tenosor will be in the shape of 28x28x32 
conv layer 6 = tf.layers.conv2d(inputs-upsample layer 3, filters=32, 


kernel size-(3,3), padding='same', activation-tf.nn.relu) 





The output tenosor will be in the shape of 28x28x1 


logits layer = tf.layers.conv2d(inputs-conv layer 6, filters=1, 





kernel size-(3,3), padding='same', activation=None) 





feeding the logits values to the sigmoid activation function to get the 
reconstructed images 
decoding layer = tf.nn.sigmoid(logits layer) 


# feeding the logits to sigmoid while calculating the cross entropy 
model loss = tf.nn.sigmoid cross entropy with logits(labels-targets values, 


logits-logits layer) 
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# Getting the model cost and defining the optimizer to minimize it 


model cost = tf.reduce mean (model loss) 





model optimizer - 


tf.train.AdamOptimizer(learning rate).minimize (model cost) 
至 此 我 们 就 构建 成 了 一 个 更 复杂 (更 深层 次 ) 的 卷 积 模型 。 
13.6.2 ”训练 模型 


下 面 开始 训练 这 个 更 深 的 网 络 ， 这 也 意味 着 将 花费 更 多 的 时 间 来 重 构 来 自 噪声 输入 
的 无 噪声 图 像 。 


首先 ， 创 建 会 话 变量 。 





















































thi 








sess = tf.Session() 


然后 ， 开 始 训练 过 程 ， 但 这 次 需要 更 多 的 训练 次 数 。 























num_epochs = 100 
train batch size = 200 


# Defining a noise factor to be added to MNIST dataset 
mnist noise factor = 0.5 


sess.run(tf.global variables initializer()) 


for e in range (num epochs): 
for ii in range (mnist dataset.train.num examples//train batch size): 
input batch = mnist dataset.train.next batch(train batch size) 
Getting and reshape the images from the corresponding batch 
batch images = input batch[0].reshape((-1, 28, 28, 1)) 
Add random noise to the input images 





noisy images = batch images + mnist noise factor * 
np.random.randn(*batch images.shape) 

Clipping all the values that are above 0 or above 1 
noisy images = np.clip(noisy images, 0., 1.) 








Set the input images to be the noisy ones and the original images 
to be the target 
input batch cost, _ = sess.run([model cost, model optimizer], 
feed dict-(inputs values: noisy images, 
targets values: 
batch images]) 
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print("Epoch: {}/{}...".format(e+l, num epochs), 
"Training loss: (:.3f)".format(input batch cost)) 


输出 如 下 。 



































Epoch: 100/100... Training loss: 0.098 
Epoch: 100/100... Training loss: 0.101 
Epoch: 100/100... Training loss: 0.103 
Epoch: 100/100... Training loss: 0.098 
Epoch: 100/100... Training loss: 0.102 
Epoch: 100/100... Training loss: 0.102 
Epoch: 100/100... Training loss: 0.103 
Epoch: 100/100... Training loss: 0.101 
Epoch: 100/100... Training loss: 0.098 
Epoch: 100/100... Training loss: 0.099 
Epoch: 100/100... Training loss: 0.096 
Epoch: 100/100... Training loss: 0.100 
Epoch: 100/100... Training loss: 0.100 
Epoch: 100/100... Training loss: 0.103 
Epoch: 100/100... Training loss: 0.100 
Epoch: 100/100... Training loss: 0.101 
Epoch: 100/100... Training loss: 0.099 
Epoch: 100/100... Training loss: 0.096 
Epoch: 100/100... Training loss: 0.102 
Epoch: 100/100... Training loss: 0.099 
Epoch: 100/100... Training loss: 0.098 
Epoch: 100/100... Training loss: 0.102 
Epoch: 100/100... Training loss: 0.100 
Epoch: 100/100... Training loss: 0.100 
Epoch: 100/100... Training loss: 0.099 
Epoch: 100/100... Training loss: 0.098 
Epoch: 100/100... Training loss: 0.100 
Epoch: 100/100... Training loss: 0.099 
Epoch: 100/100... Training loss: 0.102 
Epoch: 100/100... Training loss: 0.099 
Epoch: 100/100... Training loss: 0.102 
Epoch: 100/100... Training loss: 0.100 
Epoch: 100/100... Training loss: 0.101 
Epoch: 100/100... Training loss: 0.102 
Epoch: 100/100... Training loss: 0.098 
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Epoch: 100/100... Training loss: 0.103 
Epoch: 100/100... Training loss: 0.100 
Epoch: 100/100... Training loss: 0.098 
Epoch: 100/100... Training loss: 0.100 
Epoch: 100/100... Training loss: 0.097 
Epoch: 100/100... Training loss: 0.099 
Epoch: 100/100... Training loss: 0.100 
Epoch: 100/100... Training loss: 0.101 
Epoch: 100/100... Training loss: 0.101 
此 时 训练 的 模型 已 经 能 够 输出 无 噪声 图 像 , 这 可 以 使 得 自动 编码 器 适用 于 更 多 领域 。 
企 下 一 段 代码 中 ， 不 会 再 将 MNIST 测试 集 的 原始 图 像 提 供给 模型 ， 因 为 需要 首先 



































些 图 像 添加 噪声 ， 以 查看 训练 模型 是 否 能 够 生成 无 噪声 图 像 。 


这 里 将 噪声 添加 到 测试 图 像 中 ， 并 将 它们 传递 给 自动 编码 器 。 尽 管 有 时 肉眼 很 难 分 
辨 输出 的 原始 数字 是 什么 ， 但 降 噪 自动 编码 器 在 消除 噪声 方面 依然 做 得 非常 出 色 。 


#Defining some figures 
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fig, axes = plt.subplots(nrows-2, ncols-10, sharex-True, sharey-True, 
figsize-(20,4)) 


#Visualizing some images 
input_images = mnist_dataset.test.images[:10] 
noisy imgs = input images + mnist noise factor * 


np.random.randn(*input images.shape) 


#Clipping and reshaping the noisy images 
noisy images = np.clip(noisy images, 0., 1.).reshape((10, 28, 28, 1)) 





#Getting the reconstructed images 
reconstructed images = sess.run(decoding layer, feed dict-[(inputs values: 
noisy images]) 


#Visualizing the input images and the noisy ones 





for imgs, row in zip([noisy images, reconstructed images], axes): 
for img, ax in zip(imgs, row): 
ax.imshow(img.reshape((28, 28)), cmap-'Greys r') 
ax.get xaxis().set visible(False) 
ax.get yaxis().set visible(False) 


fig.tight layout (pad=0.1) 


输出 如 图 13.12 所 示 。 
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图 13.12 ”具有 高 斯 噪声 的 原始 测试 图 像 〈 第 一 行 ) 及 
其 基于 已 训练 的 降 噪 自动 编码 器 重 构 后 的 样本 


13.7 ”自动 编码 器 的 应 用 


在 前 文 提 到 的 从 低 维 表示 构建 图 像 的 示例 中 ， 我 们 可 以 看 到 它 的 输出 与 原始 输入 非 
常 相似 ， 之 后 也 看 到 了 CAN 的 优势 ， 它 在 对 噪声 数据 集 进行 降 噪 时 非常 有 效 。 前 面 实 
现 的 这 种 模型 对 于 图 像 重 构 和 数据 集 降 品 非 常 有 用 ， 因 此 我 们 可 以 将 上 述 实现 迁移 到 自 
己 感 兴趣 的 任何 其 他 任务 中 。 
此 外 ， 在 本 章 中 ， 我 们 已 经 看 到 了 自动 编码 器 架构 的 灵活 性 以 及 如 何 对 它 进 行 不 同 
的 更 改 。 我 们 甚至 对 它 进 行 了 测试 ， 以 解决 从 输入 图 像 中 去 除 噪声 这 样 的 难题 。 自 动 纺 
码 器 的 这 种 灵活 性 使 它 能 够 解决 更 多 的 应 用 问题 。 


13.7.1 图 像 着 色 


自动 编码 器 〈 尤 其 是 卷 积 版 ) 可 用 于 较 难 的 任务 ， 如 图 像 着 色 。 在 下 面 的 示例 中 ， 
将 传递 给 模型 没有 任何 颜色 的 输入 图 像 ， 并 且 自 动 编码 器 模型 将 输出 对 此 图 像 着 色 后 的 
重 构 版 本 ， 如 图 13.13 所 示 。 


















































































































































































































































图 13.13 CAE 经 过 训练 后 用 来 对 图 像 进 行 着 色 



































(彩色 版 本 见 本 书 在 异步 社区 中 的 配套 资源 ) 
这 里 ， 着 色 模 型 架构 如 图 13.14 所 示 。 

至 此 ， 自 动 编码 器 已 经 过 训练 ， 我 们 可 以 用 它 来 为 以 前 从 未 见 过 的 图 片 着 
这 种 应 用 程序 可 用 于 为 早期 用 相机 拍摄 的 非常 老 的 图 片 着 色 。 
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彩色 ab Lab 图 像 


conv4 conv5 conv6 conv? conv8 


膨胀 卷 积 ”膨胀 卷 积 


512 512 512 









































图 13.14 着 色 模 型 架构 

















13.7.2 ”更 多 的 应 用 
另 一 个 有 趣 的 应 用 是 生成 具有 更 高 分 辨 率 的 图 像 ， 这 称 为 神经 图 像 增强 。 
Richard Zhang 等 的 这 些 图 片 展示 了 一 些 更 真实 的 着 色 图 像 ， 如 图 13.15 所 示 。 














图 13.15 Richard Zhang. Phillip Isola 和 Alexei A. Efros 实现 的 彩色 图 像 着 色 























(彩色 版 本 见 本 书 在 异步 社区 中 的 配套 资源 ) 
图 13.16 显示 了 自动 编码 器 的 男 一 个 应 用 一 一 增强 图 像 。 


图 13.16 Alexjc 的 神经 增强 效果 图片 来 源 : GitHub 网 站 ， 
彩色 版 本 见 本 书 在 异步 社区 中 的 配套 资源 ) 


















































13.8 Ba 


本 章 介绍 了 一 种 可 用 于 许多 有 趣 任 务 的 全 新 架构 。 自 动 编码 器 非常 灵活 ， 可 以 在 图 
像 增 强 、 着 色 或 重 构 方 面 提供 有 效 的 解决 方案 。 此 外 ， 还 有 更 多 的 自动 编码 器 变 体 ， 称 
为 变 分 自动 编码 器 (variational autoencoder)。 它 们 也 有 非常 有 趣 的 应 用 ， 例 如 图 像 生 成 。 
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生成 对 抗 网 络 (Generative Adversarial Network, GAN) 是 一 种 由 两 个 彼此 对 抗 〈 因 
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此 有 了 名 字 中 的 对 抗 ) 的 网 络 组 成 的 深度 神经 网 络 结构 。 


2014 年 ，Ian Goodfellow 和 包括 Yoshua Benjio 在 内 的 其 他 看 


一 篇 论文 “Generative Adversarial Networks” 4 





























究 人 员 在 蒙特 利 尔 大 学 的 
HIT GAN。 提 到 GAN，Facebook 的 AI 


研究 总 裁 Yann LeCun 称 对 抗 训练 是 机 器 学 习 过 去 十 年 中 最 有 趣 的 想法 。 
GAN 潜力 巨大 ， 因 为 它 可 以 学 习 模仿 任何 的 数据 分 布 。 也 就 是 说 ， 可 以 训练 GAN 在 包 


括 图 像 、 音 乐 、 语 言 和 文本 在 内 的 任何 领域 中 创造 与 我 们 类 似 的 | 
] 是 机 器 人 艺术 家 ， 它 们 的 输出 令 人 印象 深刻 《〈 见 nytimes 网 站 ) 同时 也 让 人 们 受到 鼓舞 。 
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本 章 将 主要 包括 以 下 几 个 主题 。 


@ 直观 介绍 。 





























€ GAN 的 简单 实现 。 








e 深度 卷 积 GAN。 


14.1 


直观 介绍 














世界 。 从 某 种 意义 上 说 ， 它 














本 节 将 会 以 非常 直观 的 方式 介绍 生成 对 抗 网 络 GAN。 为 了 了 解 GAN 是 如 何 运作 的 ， 






































这 里 将 采用 一 个 获取 活动 门票 的 虚构 场景 。 





故事 从 某 个 地 方正 在 举行 的 
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FE 常 相似 的 门票 


EFE 常 有 趣 的 活动 开始 ， 并 且 你 很 有 兴趣 参加 。 可 你 很 晚 
才 听 说 这 个 活动 ， 所 有 门票 都 已 售 束 ， 但 是 你 想方设法 也 要 参加 活动 
。 你 想 尝 试 伪造 一 张 和 原 始 门票 完全 相同 或 者 了 


。 所 以 你 想 出 了 一 
。 但 是 生活 并 不 是 











14.2. GAN 的 简单 实现 





























这 么 容易 的 ， 这 里 还 有 另 一 个 挑战 : 你 不 知道 原始 门票 是 什么 样 的 。 因 此 ， 根 据 你 参加 
此 类 活动 的 经 验 ， 你 开始 想象 门票 应 该 长 什么 样 ， 并 赁 着 想象 开始 设计 门票 。 
你 开始 尝试 设计 门票 ， 然 后 去 参加 活动 并 向 保安 人 员 出 示 门 票 ， 你 希望 他 们 能 够 相 
信 你 并 且 放 你 进去 。 但 是 你 不 想 多 次 向 保安 人 员 展 示 你 的 面孔 ， 所 以 你 决定 从 朋友 那里 
获取 帮助 ， 他 们 会 带 着 你 凭空 设计 的 门票 去 参加 聚会 并 向 保安 人 员 出 示 。 如 果 保 安 人 员 
不 让 他 进去 ， 他 将 会 通过 查看 一 些 拿 着 真实 门票 入 场 的 人 ， 来 获取 一 些 关 于 门票 外 观 的 
信息 。 你 将 会 根据 朋友 的 评论 来 调整 门票 ， 直 到 保安 人 员 让 他 进去 。 此 时 ， 仅 在 此 时 ， 
你 将 设计 另 一 张 完全 相同 的 门票 ， 然 后 自己 拿 着 它 入 场 。 
不 要 过 多 考虑 这 个 故事 有 多 人 么 不 现实 ， 事 实 上 GAN 的 运行 方式 就 和 这 个 故事 非常 
相似 。GAN 如 今 非常 流行 ， 人 们 正在 将 它们 用 于 计算 机 视觉 领域 的 很 多 应 用 中 。 
了 很 多 有 趣 的 应 用 会 使 用 到 GAN， 这 里 将 会 提 及 并 实现 其 中 的 一 些 。 
GAN 中 有 两 个 主要 组 件 , 它们 在 众多 计算 机 视觉 领域 取得 了 突破 。 第 一 个 组 件 叫 作 
生成 器 ， 第 二 个 叫 作 判别 器 ， 如 图 14.1 所 示 。 
e 生成 器 将 会 尝试 从 某 个 特定 概率 分 布 中 产生 数据 样本 , 这 与 前 面 提 到 的 尝试 复制 
活动 门票 的 人 非常 相似 。 
e 判别 器 将 会 判别 (就 像 前 面试 图 通过 在 门票 中 找到 漏洞 , 来 判断 门票 真 仿 的 安保 
AR) 输入 是 来 自 于 原始 的 训练 集 (原始 门票 );， 还 是 来 自 于 生成 器 部 分 (被 尝 
试 复制 原始 门票 的 人 设计 出 来 的 )。 


训练 集 V |/ F 
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虚假 图 片 


























X| 14.1 GAN 通用 结构 














14.2 GAN 的 简单 实现 




















从 伪造 活动 门票 的 故事 中 , 可 以 非常 直观 地 看 出 GAN 的 思想 。 为 了 清楚 地 理解 GAN 
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是 如 何 工作 的 以 及 如 何 实现 它们 , 本 节 将 会 在 MNIST 数据 集 上 演示 GAN 的 一 个 简单 实现 。 














首先 ， 需 要 构建 GAN 网 络 的 核心 ， 它 由 两 个 主要 部 分 组 成 : 生成 器 和 判别 器 。 生 
成 器 将 会 尝试 从 某 个 特定 的 概率 分 布 中 想象 或 者 伪造 数据 样本 ， 而 可 以 访问 和 查看 实际 
数据 样本 的 判别 器 将 会 判断 生成 器 的 输出 是 在 设计 中 存在 缺陷 还 是 它 与 原始 数据 样本 非 
常 接近 。 与 前 面 的 活动 场景 相似 ， 生 成 器 的 整个 目的 就 是 使 得 判别 器 相信 生成 的 图 像 是 
来 自 真 实数 据 集 的， 以 此 来 试图 欺骗 判别 器 。 


训练 过 程 和 前 面 的 故事 有 着 相似 的 结尾 ， 生 成 器 最 终 将 会 设法 生成 与 原始 数据 样本 
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看 起 来 非常 相似 的 图 像 。 








图 14.2 显示 了 GAN 的 典型 结构 ， 将 在 MNIST 数据 集 上 训练 GAN。 图 14.2 中 的 隐藏 



































样本 部 分 是 一 个 随机 想法 或 者 向 量 , 生成 器 将 会 使 用 它 来 从 真实 图 像 中 复制 出 虚假 图 像 。 
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图 14.2 针对 MNIST 数据 集 的 通用 GAN 架构 








正如 前 文 提 到 的 ， 作 为 一 个 判断 者 ， 判 别 器 将 尝试 从 生成 器 设计 的 虚假 图 像 中 分 
真实 图 像 。 所 以 这 个 网 络 将 产生 一 个 二 值 输出 ， 二 值 输出 可 以 使 用 sigmoid 函数 
AN CO 表示 输入 的 是 虚假 图 像 ，1 表示 输入 的 是 真实 图 像 )。 












































现在 继续 实现 这 个 架构 ， 看 它 在 MNIST 数据 集 上 的 表现 如 何 。 
从 导入 此 实现 所 需 的 库 开始 。 





$matplotlib inline 


import 


import 


import 


import 


matplotlib.pyplot as plt 
pickle as pkl 


numpy as np 
tensorflow as tf 


—— [yup 


14.2. GAN 的 简单 实现 





因为 这 里 使 用 了 MNIST 数据 集 , 所 以 将 会 使 用 TensorFlow 辅助 函数 来 获取 数据 集 ， 
并 将 它 存储 在 茶 处 。 








from tensorflow.examples.tutorials.mnist import input_data 
mnist dataset = input data.read data sets('MNIST data") 


输出 如 下 。 


Extracting MNIST data/train-images-idx3-ubyte.gz 
Extracting MNIST data/train-labels-idxl-ubyte.gz 
Extracting MNIST data/tlO0k-images-idx3-ubyte.gz 
Extracting MNIST data/tlO0k-labels-idxl-ubyte.gz 


14.2.1 ”模型 输入 


在 深入 构建 由 生成 器 和 判别 器 表示 的 GAN 的 核心 之 前 ， 先 定义 计算 图 的 输入 。 如 
14.3 所 示 ， 需 要 两 个 输入 : 一 个 输入 是 真实 图 像 ， 会 把 它 提 供给 判别 器 ; 另 一 个 输入 称 
为 隐 空 间 ， 会 将 它 提供 给 生成 器 ， 并 用 于 生成 虚假 图 像 。 























YS 




















f Defining the model input for the generator and discrimator 
def inputs placeholders(discrimator real dim, gen z dim): 

real discrminator input = tf.placeholder(tf.float32, (None, 
discrimator real dim), name-"real discrminator input") 

generator inputs z = tf.placeholder(tf.float32, (None, gen z dim), 
name-"generator input z") 


return real discrminator input, generator inputs z 
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图 14.3 在 MNIST 数据 集 上 实现 的 GAN 架构 
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开始 深入 构建 GAN 架构 的 两 个 核心 组 件 。 首 先 从 构建 生成 器 部 分 开始 。 如 图 
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14.3 所 示 ， 生 成 器 将 包含 至 少 一 个 隐藏 层 ， 它 将 作为 一 个 近似 器 。 此 外 ， 将 会 采用 一 种 
PA Leaky ReLU 的 激活 函数 ， 而 不 是 通用 的 ReLU 激活 函数 。 这 将 允许 梯度 值 在 层 与 
层 之 间 随 意 流动 (关于 Leaky ReLU 的 更 多 信息 将 会 在 14.2.3 节 中 介绍 )。 


14.2.2 ”变量 作用 域 


变量 作用 域 是 TensorFlow 中 的 一 个 特性 ， 作 用 域 有 助 于 执行 如 下 操作 。 


e 确保 有 一 些 命名 约定 ， 以 便 后 续 检 索 变 量 。 例 如 ， 通 过 使 变量 以 单词 generator 
BK discriminator 开头 ， 这 在 网 络 训练 期 间 将 有 所 帮助 。 其 实 也 可 以 使 用 名 字 作 用 
域 特性 ， 但 是 这 个 特性 不 能 帮助 我 们 实现 第 二 个 目的 。 

e 能 够 重复 使 用 或 重复 训练 有 不 同 输入 的 相同 网 络 。 例如, 我 们 将 从 生成 器 中 对 虚 
假 图 像 进行 采样 ,来 查看 生成 器 复制 原始 图 像 的 性 能 如 何 。 此 外 ,判别 器 可 以 访 
问 真实 图 像 和 虚假 图 像 , 这 使 得 在 构建 计算 图 时 可 以 轻松 地 重用 变量 而 不 是 创建 

新 变量 。 

以 下 语句 将 说 明 如 何 使 用 TensorFlow 中 的 变量 作用 域 特性 。 






































































































































































































































with tf.variable scope('scopeName', reuse-False): 


# Write your code here 
读者 可 以 在 TensorFlow 官网 中 搜索 “variable scope” 来 了 解 关 于 使 用 变量 作用 域 特 
性 的 更 多 好 处 。 





















































14.2.3 Leaky ReLU 


前 文 提 到 ， 使 用 与 ReLU 激活 函数 不 同 版 本 的 激活 函数 一 一 Leaky ReLU。 传 统 版 本 
的 ReLU 激活 函数 通过 其 他 方式 将 负 值 截断 为 零 ， 只 会 取 输 入 值 和 零 值 中 的 最 大 值 。 而 
这 里 使 用 的 Leaky ReLU 版 本 允许 存在 一 些 负 值 ， 因 此 得 名 Leaky ReLU。 
有 时 使 用 传统 的 ReLU 激活 函数 ， 网 络 会 陷入 一 种 常态 一 一 死亡 状态 ， 这 是 因为 网 
络 所 有 的 输出 全 为 零 。 

Leaky ReLU 的 思想 是 通过 允许 一 些 负 值 传递 来 阻止 这 种 死亡 状态 。 

使 生成 器 工作 的 整个 思想 就 是 从 判别 器 接收 梯度 值 ， 并 且 如 果 网 络 陷入 死亡 状态 ， 
学 习 过 程 就 不 会 出 现 。 

图 14.4 和 图 14.5 显示 了 传统 ReLU 与 Leaky ReLU 激活 函数 之 间 的 不 同 。 
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E 
14.5 Leaky ReLU 激活 函数 








图 144 ReLU 激活 函数 






































如 果 输 入 为 正 数 ， 此 激活 函 
将 是 一 个 受 控制 的 负 值 。 这 里 将 使 用 一 个 称 为 alpha 的 参数 来 控 秆 
一 些 负 值 来 引入 网 络 的 容错 性 。 


下 面 的 等 式 表 示 需 要 实现 的 Leaky ReLU 函数 。 
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f(x) = max(ax,x) 


14.2.4 ”生成 器 





因为 Leaky ReLU 激活 函数 并 没有 在 TensorFlow 中 实现 ,所 以 需要 我 们 自己 去 实现 它 。 
数 的 输出 也 为 正 数 ， 如 果 输 入 为 负数 ， 则 此 激活 函数 的 输出 
通过 允许 传递 























把 MNIST 图 像 归 一 化 到 0 一 1， 从 而 使 得 sigmoid 激活 函数 充分 发 挥 作 月 
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要 将 这 些 图 像 的 像素 值 范围 习 





新 缩放 到 -1 一 1。 
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实际 上 ， 
a tanh 激活 函数 比 其 他 任何 函数 都 具有 更 好 的 性 能 ,因此 为 了 使 用 tanh dni 


def generator (gen z, gen out dim, num hiddern units=128, reuse vars=False, 





leaky_relu_alpha=0.01): 
''' Building the generator part of the network 
Function arguments 
gen_z : the generator input tensor 
gen_out_dim : the output shape of the generator 


num_hiddern_units : Number of neurons/units in the hidden layer 


reuse vars : Reuse variables with tf.variable scope 
leaky relu alpha : leaky ReLU parameter 
Function Returns 


tanh output, logits layer: 


with tf.variable scope('generator', reuse-reuse vars): 
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Defining the generator hidden layer 

hidden layer 1 = tf.layers.dense(gen z, num hiddern units, 
activation=None) 
Feeding the output of hidden layer 1 to leaky relu 
hidden layer 1 = tf.maximum(hidden layer 1, 

leaky relu alpha*hidden layer 1) 

Getting the logits and tanh layer output 

logits layer = tf.layers.dense(hidden layer 1, gen out dim, 

















activation=None) 
tanh output = tf.nn.tanh(logits layer) 








return tanh output, logits layer 


现在 我 们 已 经 准备 好 了 生成 器 部 分 ， 下 面 继续 定 义 GAN 的 第 二 个 组 件 。 
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14.2.5 ”判别 器 

接 下 来 ， 构 建生 成 对 抗 网 络 中 的 第 二 个 主要 组 件 ， 即 判别 器 。 判 别 器 与 生成 器 基本 
相同 ， 但 不 使 用 tanh 激活 函数 ， 而 使 用 sigmoid 激活 函数 ; 它 将 产生 一 个 二 值 输出 ， 代 
表 判 别 器 对 输入 图 像 的 判断 。 



























































def discriminator(disc input, num hiddern units-128, reuse vars-False, 


leaky_relu_alpha=0.01): 
''' Building the discriminator part of the network 
Function Arguments 
disc_input : discrminator input tensor 
num_hiddern_units : Number of neurons/units in the hidden layer 
reuse vars : Reuse variables with tf.variable scope 
leaky relu alpha : leaky ReLU parameter 
Function Returns 
sigmoid out, logits layer: 
rag 
with tf.variable scope('discriminator', reuse-reuse vars): 
Defining the generator hidden layer 
hidden layer 1 = tf.layers.dense(disc input, num hiddern units, 
activation=None) 
Feeding the output of hidden_layer_1 to leaky relu 
hidden layer 1 = tf.maximum(hidden layer 1, 
leaky relu alpha*hidden layer 1) 
logits layer = tf.layers.dense (hidden layer 1, 1, activation=None) 








sigmoid out = tf.nn.sigmoid(logits layer) 
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return sigmoid_out, logits_layer 


14.2.6 构建 GAN 网 络 











在 定义 了 构建 生成 器 和 判别 器 组 件 的 主要 函数 之 后 ， 下 面 将 它们 堆 登 起 来 ， 然 后 为 

















此 实现 定义 模型 损失 和 优化 器 。 


1. 模型 超 参数 
可 以 通过 改变 下 面 一 组 





gen z size = 100 








smoothness of the 
label smooth = 0.1 





超 参 数 来 微调 GAN. 





size of discriminator input image 
28 by 28 will flattened to be 784 
input_img_size = 784 


size of the generator latent vector 
number of hidden units for the generator and discriminator hidden layers 
gen_hidden_size = 128 


disc hidden size = 128 


leaky ReLU alpha parameter which controls the leak of the function 
leaky relu alpha = 0.01 


label 


2. 定义 生成 器 和 判别 器 











在 定义 了 用 于 生成 虚假 MNIST 图 像 (看 起 来 和 真实 图 像 基 本 相同 〉 的 GAN 架构 





























的 两 个 主要 组 件 之 后 ， 下 面 使 用 目前 已 经 定义 的 函数 来 构建 网 络 。 构 建 网 络 将 遵循 以 下 


步 又 。 






































(1) 定义 模型 输入 ， 输 入 包含 两 个 变量 。 其 中 一 个 变量 是 真实 图 像 ， 把 它 输入 判别 

















器 ， 另 一 个 变量 是 生成 器 用 于 复制 原始 图 像 的 隐 空 间 。 
(2) 调用 前 面 定义 的 生成 器 函数 来 构建 网 络 的 生成 器 部 分 。 
(3) 调用 前 面 定义 的 判别 器 函数 来 构建 网 络 的 判别 器 部 分 ， 但 是 这 里 会 调用 该 函数 























一 9 一 


第 14 章 生成 对 抗 网 络 


"d 


两 次 。 第 一 次 调用 针对 真实 数据 ， 第 二 次 调用 针对 生成 器 生成 的 虚假 数据 。 
(4) 通过 重用 变量 来 保持 真实 图 像 和 虚假 图 像 的 权重 是 一 样 的 。 


tf.reset default graph() 
































mug 

















# creating the input placeholders for the discrminator and 
generator 
real discrminator input, generator input z = 


inputs placeholders(input img size, gen z size) 


Create the generator network 
gen model, gen logits = generator(generator input z, 





input img size, gen hidden size, reuse vars-False, 


leaky relu alpha-leaky relu alpha) 


gen model is the output of the generator 








Create the generator network 
disc model real, disc logits real - 


discriminator(real discrminator input, disc hidden size, 





reuse vars-False, leaky relu alpha-leaky relu alpha) 
disc model fake, disc logits fake = discriminator (gen model, 


disc hidden size, reuse vars-True, 





leaky relu alpha-leaky relu alpha) 


3. 判别 器 与 生成 器 损失 

这 一 部 分 需要 定义 判别 器 和 生成 器 损失 ， 可 以 认为 这 是 此 实现 中 最 富有 技巧 的 部 分 。 

我 们 知道 生成 器 试图 伪造 原始 图 像 ， 并 且 判 别 器 作为 判断 者 ， 同 时 接收 来 自生 成 器 和 
原始 输入 的 图 像 。 因 此 在 为 每 一 部 分 设计 损失 时 ， 需 要 关注 两 件 事 。 


首先 ， 网 络 的 判别 器 部 分 要 能 够 区 分 由 生成 器 生成 的 虚假 图 像 和 来 自 原始 训练 样本 
的 真实 图 像 。 在 训练 时 ， 将 给 判别 器 部 分 提供 一 批 分 为 两 类 的 数据 。 第 一 类 是 来 自 原 始 
输入 的 图 像 ， 第 二 类 是 生成 器 生成 的 虚假 图 像 。 


因此 ， 判 别 器 最 终 的 总 损失 将 是 它 接受 真实 图 像 为 真实 图 像 并 且 检 测 假 图 像 为 虚假 
像 的 能 力 之 和 。 最 终 的 总 损失 如 下 。 
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disc loss = disc loss real + disc loss fake 


tf.reduce mean(tf.nn.sigmoid cross entropy with logits (logits-logits layer, 
labels-labels)) 
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这 种 情况 下 ，labels 的 值 全 都 为 1， 因 为 此 时 最 小 批 次 中 所 有 图 像 都 来 自 MNIST 数据 集 
FP 的 真实 输入 图 像 。 为 了 增强 模型 在 测试 集 上 的 泛 化 能 力 并 给 出 更 好 的 结果 ， 我 们 发 现 


H 








14.2. GAN 的 简单 实现 


然后 ， 需 要 计算 两 个 损失 才能 得 到 最 终 的 判别 器 损失 。 
第 一 个 损失 disc loss real 将 会 根据 从 判别 器 和 labels 获得 的 logits 值 计 算出 来 。 在 























































































































其 实 将 labels 的 值 从 1 改 为 0.9 会 更 好 。 标 签 的 这 种 改变 称 为 标签 平滑 。 








labels = tf.ones like(tensor) * (1 - smooth) 


判别 器 损失 的 第 二 部 分 是 判别 器 能 够 检测 虚假 图 像 的 能 力 ， 损 失 介 于 从 判别 器 获得 




















的 logits 值 和 labels 值 之 间 。 此 时 ， 所 有 的 labels 值 都 是 零 ， 因 为 已 知 这 个 最 小 批 次 中 的 
所 有 图 像 都 来 自生 成 器 ， 而 不 是 来 自 原始 输入 。 


gen_loss， 它 介 于 disc_logits_fake《〈 判 别 器 对 于 虚假 图 像 的 输出 ) 和 标签 〈 全 都 为 1， 因 


















































既然 已 经 讨论 了 判别 器 损失 ， 那 么 同样 也 需要 计算 生成 器 损失 。 生 成 器 损失 称 为 



































为 生成 器 试图 使 判别 器 相信 它 生成 的 虚假 图 像 ) 之 间 。 





# calculating the losses of the discrimnator and generator 
disc labels real = tf.ones like(disc logits real) * (1 - label smooth) 
disc labels fake = tf.zeros like(disc logits fake) 








disc loss real - 

tf.nn.sigmoid cross entropy with logits(labels-disc labels real, 
logits-disc logits real) 

disc loss fake - 

tf.nn.sigmoid cross entropy with logits(labels-disc labels fake, 
logits-disc logits fake) 


averaging the disc loss 





disc loss = tf.reduce mean(disc loss real + disc loss fake) 














averaging the gen loss 








gen loss = tf.reduce mean( 

tf.nn.sigmoid cross entropy with logits( 
labels-tf.ones like(disc logits fake), 
logits-disc logits fake)) 


4. 优化 器 
最 后 是 优化 器 部 分 。 在 本 节 中 ， 将 会 定义 训练 过 程 中 使 用 的 优化 标准 。 首 先 ， 将 分 
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别 更 新 生成 器 和 判别 器 的 变量 ， 因 此 需要 能 够 检索 每 一 部 分 的 变量 。 

对 于 第 一 个 优化 器 〈 即 生成 器 1)， 将 从 计算 图 中 的 可 训练 变量 中 检索 以 generator 
名 称 开头 的 所 有 变量 ， 然 后 通过 参考 其 名 称 来 检查 每 个 变量 属于 哪 一 模块 。 

同样 也 要 对 判别 器 的 变量 做 同样 的 操作 ， 方 法 是 令 其 所 有 变量 都 以 discriminator 开 
头 。 在 这 之 后 ， 就 可 以 将 想 要 优化 的 变量 列表 传递 给 优化 器 。 

TensorFlow 的 变量 作用 域 特性 使 得 我 们 能 够 检索 以 某 个 字符 串 开 头 的 变量 ， 然 后 会 
有 两 个 不 同 的 变量 列表 ， 一 个 用 于 生成 器 ， 另 一 个 用 于 判别 器 。 

















































































































building the model optimizer 


learning_rate = 0.002 


Getting the trainable variables of the computational graph, split into 


Generator and Discrimnator parts 








trainable vars = tf.trainable variables () 

gen vars = [var for var in trainable vars if 
var.name.startswith ("generator") ] 

disc vars = [var for var in trainable vars if 


var.name.startswith ("discriminator") ] 
disc train optimizer = tf.train.AdamOptimizer().minimize(disc_loss, 
var list-disc vars) 


gen train optimizer = tf.train.AdamOptimizer().minimize (gen loss, 


var list-gen vars) 


14.2.7 ”训练 模型 
下 面 开 始 训练 过 程 ， 来 看 GAN 如 何 设法 生成 类 似 于 MNIST 数据 集中 图 像 的 图 像 。 
































train batch size = 100 
num epochs = 100 
generated_samples = [] 
model losses = [] 


saver = tf.train.Saver(var list = gen vars) 


with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
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for e in range (num epochs): 
for ii in 
range(mnist dataset.train.num examples//train batch size): 


input batch = mnist dataset.train.next batch(train batch size) 








# Get images, reshape and rescale to pass to D 

input batch images = input batch[0].reshape((train batch. 
size,784)) 

input batch images = input batch images*2 - 1 

# Sample random noise for G 

gen batch z = np.random.uniform(-1, 1, size-(train batch size, 
gen z size)) 

f Run optimizers 

. = Sess.run(disc train optimizer, 
feed dict-(real discrminator input: input batch images, generator input z: 
gen batch z]) 





. = sess.run (gen train optimizer, feed dict-(generator input z: 
gen batch z]) 
# At th nd of each epoch, get the losses and print them out 





train_loss_disc = sess.run(disc_loss, {generator_input_z: 
gen_batch_z, real_discrminator_input: input_batch_images}) 


train loss gen = gen_loss.eval({generator_input_z: gen batch z]) 








print("Epoch [()/[()...".format(e*1l, num epochs), 
"Disc Loss: (:.3f])...".format(train loss disc), 
"Gen Loss: (:.3f)".format(train loss gen)) 


# Save losses to view after training 





model losses.append((train loss disc, train loss gen)) 

# Sample from generator as we're training for 
viegenerator inputs zwing afterwards 

gen sample z = np.random.uniform(-1, 1, size-(16, gen z size)) 

generator samples = sess.run( 


generator(generator input z, input img size, 





reuse vars-True), 


feed dict-(generator input z: gen sample z]) 








generated samples.append(generator samples) 





saver.save(sess, './checkpoints/generator ck.ckpt') 
# Save training generator samples 


with open('train generator samples.pkl', 'wb') as f: 


pkl.dump (generated samples, f) 


输出 如 下 。 
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Epoch 71/100... Disc Loss: 1.078... Gen Loss: 1.361 
Epoch 72/100... Disc Loss: 1.037... Gen Loss: 1.555 
Epoch 73/100... Disc Loss: 1.194... Gen Loss: 1.297 
Epoch 74/100... Disc Loss: 1.120... Gen Loss: 1.730 
Epoch 75/100... Disc Loss: 1.184... Gen Loss: 1.425 
Epoch 76/100... Disc Loss: 1.054... Gen Loss: 1.534 
Epoch 77/100... Disc Loss: 1.457... Gen Loss: 0.971 
Epoch 78/100... Disc Loss: 0.973... Gen Loss: 1.688 
Epoch 79/100... Disc Loss: 1.324... Gen Loss: 1.370 
Epoch 80/100... Disc Loss: 1.178... Gen Loss: 1.710 
Epoch 81/100... Disc Loss: 1.070... Gen Loss: 1.649 
Epoch 82/100... Disc Loss: 1.070... Gen Loss: 1.530 
Epoch 83/100... Disc Loss: 1.117... Gen Loss: 1.705 
Epoch 84/100... Disc Loss: 1.042... Gen Loss: 2.210 
Epoch 85/100... Disc Loss: 1.152... Gen Loss: 1.260 
Epoch 86/100... Disc Loss: 1.327... Gen Loss: 1.312 
Epoch 87/100... Disc Loss: 1.069... Gen Loss: 1.759 
Epoch 88/100... Disc Loss: 1.001... Gen Loss: 1.400 
Epoch 89/100... Disc Loss: 1.215... Gen Loss: 1.448 
Epoch 90/100... Disc Loss: 1.108... Gen Loss: 1.342 
Epoch 91/100... Disc Loss: 1.227... Gen Loss: 1.468 
Epoch 92/100... Disc Loss: 1.190... Gen Loss: 1.328 
Epoch 93/100... Disc Loss: 0.869... Gen Loss: 1.857 
Epoch 94/100... Disc Loss: 0.946... Gen Loss: 1.740 
Epoch 95/100... Disc Loss: 0.925... Gen Loss: 1.708 
Epoch 96/100... Disc Loss: 1.067... Gen Loss: 1.427 
Epoch 97/100... Disc Loss: 1.099... Gen Loss: 1.573 
Epoch 98/100... Disc Loss: 0.972... Gen Loss: 1.884 
Epoch 99/100... Disc Loss: 1.292... Gen Loss: 1.610 
Epoch 100/100... Disc Loss: 1.103... Gen Loss: 1.736 














TERUSIAIVT 100 轮 之 后 ， 得 到 一 个 训练 好 的 模型 ， 该 模型 能 够 产生 类 似 于 输入 关 
别 器 中 的 原始 输入 图 像 。 


fig, ax = plt.subplots() 


= 





y 











model losses = np.array(model losses) 
plt.plot (model losses.T[0], label-'Disc loss") 
plt.plot(model losses.T[1], label='Gen loss') 
plt.title("Model Losses") 

plt.legend() 
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输出 如 图 14.6 所 示 ， 可 以 看 到 判别 器 和 生成 器 曲线 对 应 的 模型 损失 都 在 收敛 。 


Training Losses 


354 —— Discriminator 
一 一 Generator 




















图 14.6 判别 器 与 生成 器 损失 
训练 的 生成 器 样本 


下 面 测 试 模型 的 性 能 , 并 观察 在 训练 过 程 将 要 结束 时 , 生成 器 的 生成 能 力 (对 应 14.1 
的 设计 活动 门票 情景 ) 如 何 得 到 增强 。 
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def view generated samples (epoch num, g samples): 
fig, axes - plt.subplots(figsize-(7,7), nrows-4, ncols-4, sharey-True, 
sharex-True) 
print(gen samples[epoch num][1].shape) 
for ax, gen image in zip(axes.flatten(), g samples[0][epoch num]): 
ax.xaxis.set visible (False) 
ax.yaxis.set visible (False) 
img = ax.imshow(gen image.reshape((28,28)), cmap-'Greys r') 
return fig, axes 














在 绘制 训练 过 程 的 最 后 一 轮训 练 中 生成 的 图 像 之 前 ， 需 要 加 载 持久 化 文件 ， 该 文件 
包含 整个 训练 过 程 中 每 一 轮训 练 生 成 的 样本 。 








# Load samples from generator taken while training 
with open('train generator samples.pkl', 'rb') as f: 
gen samples = pkl.load(f) 


现在 我 们 绘制 出 了 训练 过 程 中 最 后 一 轮 生 成 的 16 幅 图 像 , 下 面 来 看 生成 器 如 何 生成 
有 意义 的 数字 ， 如 3、7 和 2 等 。 











_ = view generated samples(-1, gen samples) 
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输出 结果 如 图 14.7 所 示 。 


我 们 甚至 可 以 查看 生成 器 在 不 同 轮 的 训练 中 的 设计 技巧 。 这 里 将 显示 生成 器 每 10 
轮 中 生成 的 图 像 。 


rows, cols = 10, 6 









































fig, axes = plt.subplots(figsize=(7,12), nrows=rows, ncols=cols, 
sharex=True, sharey=True) 





for gen sample, ax row in zip(gen samples[::int(len(gen samples)/rows)], 
axes): 
for image, ax in zip(gen sample[::int(len(gen sample)/cols)], ax row): 
ax.imshow(image.reshape((28,28)), cmap-'Greys r') 
ax.Xaxis.set visible (False) 


ax.yaxis.set visible (False) 

















如 图 14.8 所 示 ， 生 成 器 的 设计 技巧 及 其 生成 虚假 图 像 的 能 力 起 初 都 非常 有 限 ， 在 训 
练 快 结束 时 能 力 得 到 了 增强 。 



























































图 14.7 最 后 一 轮训 练 中 生成 的 样本 14.8 网络 训练 过 程 中 每 10 轮 生 成 的 图 像 
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14.2. GAN 的 简单 实现 


14.2.8 ”从 生成 器 中 采样 

142.7 节 介绍 了 在 GAN 架构 训练 过 程 中 生成 的 一 些 样本 。 我 们 还 可 以 通过 加 载 保存 
的 检查 点 ， 并 提供 给 生成 器 一 个 能 够 用 于 生成 新 图 像 的 新 隐 空 间 变 量 ， 来 从 生成 器 产生 
一 些 全 新 的 图 像 。 




























































































# Sampling from the generator 


saver = tf.train.Saver(var_list=g_vars) 


with tf.Session() as sess: 
#restoring the saved checkpints 
saver.restore(sess, tf.train.latest checkpoint('checkpoints')) 
gen sample z = np.random.uniform(-1, 1, size=(16, z size)) 
generated samples = sess.run( 
generator(generator input z, input img size, 


reuse vars-True), 








feed dict-(generator input z: gen sample z]) 





view generated samples(0, [generated samples]) 


输出 如 图 14.9 所 示 。 





























图 14.9 ”生成 器 生成 的 样本 

















在 实现 此 示例 时 ， 有 一 些 观测 结果 。 在 训练 过 程 的 第 一 轮 达 代 中 ， 生 成 器 无 法 产生 
和 真实 图 像 相 似 的 图 像 ， 因 为 它 根本 不 知道 真实 图 像 是 什么 样 的 。 甚 至 判别 器 也 不 知道 
如 何 区 分 由 生成 器 生成 的 虚假 图 像 和 真实 图 像 。 在 训练 开始 时 , 出现 了 两 种 有 趣 的 现象 : 
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生成 器 不 知道 如 何 产 生 最 初 馈送 到 网 络 的 真实 
像 之 间 的 差别 。 

后 来 ， 生 成 器 开始 伪造 在 茶 种 程度 上 有 意义 的 图 像 ， 这 是 因为 生成 器 将 会 学 习 到 原 
始 输入 图 像 来 自 数据 分 布 。 同 时 ， 判 别 器 将 能 够 区 分 虚假 图 像 与 真实 图 像 ， 但 是 它 在 训 
练 过 程 接 近 尾 声 时 将 会 被 生成 器 欺骗 。 





像 ， 判 别 器 也 不 知道 真实 图 像 和 虚假 区 
















































































143 总结 





GAN 如 今 有 许多 有 趣 的 应 用 ， 它 可 以 用 于 不 同 的 场景 ， 如 半 监 督 和 无 监督 任务 。 此 
外 ， 由 于 大 量 研究 人 员 致 力 于 研究 GAN 网 络 ， 因 此 这 些 模型 正在 日 益 发 展 ， 它 们 生成 
图 像 和 视频 的 能 力也 在 变 得 越 来 越 好 。 

这 类 模型 可 用 于 许多 有 趣 的 商业 应 用 ， 例 如 ， 向 Photoshop 软件 添加 插件 ， 该 插件 
可 以 接受 命令 “make my smile more appealing”。 同 时 ， 这 类 模型 还 可 以 用 于 图 像 降 噪 。 
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即 基于 CelebA 数据 库 的 面部 生成 。 同 时 还 将 演示 当面 对 一 个 带 有 


使 月 








H GAN 的 有 趣 应 用 程序 还 有 很 多 。 本 章 将 展示 GAN 的 另 
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时 ， 如 何 将 GAN 用 于 半 监 督学 习 。 


15. 


本 章 将 介 























绍 以 下 主题 。 














e 面部 4 





E 成 。 











e 用 生成 对 抗 网 络 进行 半 监 督学 习 。 


1 面部 生成 


























网 络 (Convolutional Neural Network, CNN) °. 


@ CNN 


以 认为 这 个 向 
€ DNN 是 一 类 通过 学 习 一 些 过 滤器 来 从 z 恢复 原 
此 外 , 判别 器 将 输出 一 个 1 或 0 来 表示 输入 图 像 是 来 自 实 际 数 和 























是 图 像 的 压缩 版 本 。 








tal 
qu 





















































始 图 像 的 网 络 。 





























民有 前 景 的 应 用 ， 
些 缺 失 标签 的 数据 集 





生成 器 与 判别 器 包含 了 反 卷 积 网 络 (Deconvolutional Network, DNN) 2 和 卷 积 神经 


是 一 类 神经 网 络 ， 它 将 图 像 的 数 百 个 像素 编码 成 维度 更 小 的 向 量 (z)， 可 


居 集 还 是 由 生成 器 生成 的 。 





生成 器 将 尝试 基于 隐 空 间 z 来 生成 类 似 于 原始 数据 集 的 图 像 ， 隐 空间 z 可 能 遵循 高 斯 分 布 。 




















因此 ， 判 别 器 上 
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的 目标 是 正确 识别 真实 图 像 ， 而 生成 器 的 目 








判别 器 以 使 它 做 出 错误 的 决定 。 
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T CNN, if 


JL quora 官网 。 
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标 是 学 习 原 
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四 集 的 分 布 ， 


从 而 
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在 本 节 中 , 我 们 将 尝试 训练 生成 器 学 习 人 脸 图 像 的 分 布 ， 以 便 生成 真实 的 面部 图 像 。 

对 于 大 多 数 在 应 用 中 使 用 人 类 面孔 的 图 形 公司 而 言 , 生 成 类 似 人 脸 的 面孔 至 关 重 要 ， 
同时 它 为 我 们 提供 了 一 个 生动 的 例子 ， 即 人 工 智能 如 何在 生成 人 类 面孔 时 实现 真实 性 。 

这 个 示例 将 使 用 CelebA 数据 集 。CelebFaces 属性 数据 集 (CelebA) 是 一 个 大 型 的 人 
脸 属 性 数据 集 ， 有 大 约 20 万 张 名 人 图 像 ， 每 张 图 像 有 40 个 属性 注释 。 数 据 集中 的 图 像 
涵盖 了 许多 不 同 的 姿势 ， 同 时 背景 也 非常 杂乱 ，CelebA 非常 多 样 化 并 且 有 很 好 的 注释 。 
具体 来 说 ， 其 中 包括 以 下 内 容 。 

@ 10177 个 人 。 

@ 202 599 张 脸 部 图 片 。 

e 每 张 图 像 的 5 个 标志 位 置 和 40 个 二 值 属性 注释 。 

除了 面部 生成 之 外 ， 我 们 还 可 以 将 此 数据 集 用 于 其 他 的 计算 机 视觉 应 用 ， 如 面部 识 
别 和 定位 ， 或 面部 属性 检测 。 

图 15.1 所 示 是 训练 过 程 中 生成 器 的 误差 以 及 学 习 真实 人 脸 分 布 的 过 程 。 
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图 15.1 于 从 名 人 图 像 数 据 集中 生成 新 面孔 的 GAN 


15.1.1 获取 数据 


在 本 节 中 ， 将 定义 一 些 有 助 于 下 载 CelebA 数据 集 的 辅助 函数 。 首 先 ， 导 入 此 实现 
所 需 的 包 。 
























































import math 

import os 

import hashlib 

from urllib.request import urlretrieve 
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import zipfile 
import gzip 


import shutil 


import numpy as np 
from PIL import Image 
from tqdm import tqdm 


import utils 





import tensorflow as tf 











Am 
o 





#Downloading celebA dataset 
celebA data dir = 'input' 


utils.download extract('celeba', celebA data dir) 


输出 如 下 。 


Downloading celeba: 1.44GB [00:21, 66.6MB/s] 


Extracting celeba... 





15.1.2 ”探讨 数据 集 


CelebA 数据 集 包 含 超过 20 万 张 带 注释 的 名 人 图 像 。 由 于 我 们 将 使 用 GAN 生成 类 
似 的 图 像 ， 因 此 有 必要 查看 该 数据 集中 的 一 组 图 像 并 观察 它们 的 外 观 。 在 本 节 中 ， 将 
定义 一 些 辅助 函数 ， 用 于 可 视 化 CelebA 数据 集中 的 一 组 图 像 。 


下 面 使 用 utils 脚本 来 显示 数据 集中 的 一 些 图 像 。 








































































































#number of images to display 


num images to show = 25 


celebA images-utils.get batch(glob(os.path.join(celebA data dir, 
'img align celeba/*.jpg'))[:num images to show], 

28, 28, 'RGB') 
pyplot.imshow(utils.images square grid(celebA images, 'RGB')) 


输出 结果 如 图 15.2 所 示 。 
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图 15.2 CelebA 数据 集中 提取 图 像样 本 















































这 个 计算 机 视觉 任务 的 主要 焦点 是 使 用 GAN 生成 类 似 于 名 人 数据 集中 的 图 像 ， 


此 我 们 需要 关注 图 像 的 面部 部 分 。 要 关注 图 像 的 脸 部 ， 就 必须 删除 不 包含 名 人 脸 部 的 图 
像 部 分 。 

















15.1.3 ”构建 模型 
下 面 开 始 构建 这 次 实现 的 核心 ， 即 计算 图 ， 主 要 包括 以 下 部 分 。 


T. 

















模型 输入 。 
判别 器 。 
模型 的 损失 函数 。 
模型 的 优化 器 。 
模型 的 训练 环节 。 


模型 输入 





























在 本 节 中 ， 我 们 将 实现 一 个 辅助 函数 ， 用 来 定义 负责 为 模型 计算 图 提供 数据 输入 的 


BN. 




















这 个 函数 应 该 能 够 创建 3 类 主要 的 占 位 符 。 





来 自 数据 集 的 实际 输入 图 像 ， 其 维度 包括 批量 大 小 、 输 入 图 像 宽 度 、 输 入 图 像 高 
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e 隐 空 间 z， 发 生 器 使 用 它 生 成 虚假 图 像 。 
e 学 习 率 的 占 位 符 。 
辅助 函数 将 返回 这 3 个 输入 占 位 符 构 成 的 元 组 。 下 面 继 续 定义 这 个 函数 。 





























defining the model inputs 
def inputs (img width, img height, img channels, latent space z dim): 
true inputs = tf.placeholder(tf.float32, (None, img width, img. 





height, img channels), 
'true inputs!) 
l space inputs = tf.placeholder(tf.float32, (None, latent space 
z dim), 'l space inputs') 
model learning rate = tf.placeholder(tf.float32, 


name-'model learning rate') 


return true inputs, 1 space inputs, model learning rate 


2. 判别 器 


接 下 来 ， 需 要 实现 网 络 的 判别 器 部 分 ， 该 部 分 将 用 于 判断 输入 是 来 自 真实 数据 集 还 
是 由 生成 器 生成 的 。 同 样 ， 将 使 用 TensorFlow 的 tf.variable_scope 功能 为 一 些 变 量 添加 
带 有 判别 器 字样 的 前 级 ， 以 便 可 以 检索 和 重用 它们 。 

这 里 定义 一 个 函数 ， 它 将 返回 判别 器 的 二 元 输出 和 logit 值 。 


# Defining the discriminator function 



















































































def discriminator (input_imgs, reuse-False): 
# using variable scope to reuse variables 





with tf.variable scope('discriminator', reuse-reuse): 
# leaky relu parameter 
leaky param alpha = 0.2 


# defining the layers 

conv layer 1 = tf.layers.conv2d(input imgs, 64, 5, 2, 'same') 

leaky relu output = tf.maximum(leaky param alpha * conv layer 1, 
conv layer 1) 


conv layer 2 = tf.layers.conv2d(leaky relu output, 128, 5, 2, 
'same') 

normalized output = tf.layers.batch normalization(conv layer 2, 
training-True) 

leay relu output = tf.maximum(leaky param alpha * 
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normalized_output, normalized_output) 


conv_layer_3 = tf.layers.conv2d(leay_relu_output, 256, 5, 2, 
'same') 

normalized output = tf.layers.batch normalization(conv layer 3, 
training-True) 

leaky relu output = tf.maximum(leaky param alpha * 
normalized output, normalized output) 


f reshaping the output for the logits to be 2D tensor 
flattened output = tf.reshape(leaky relu output, (-1, 4 * 4 * 256)) 
logits layer = tf.layers.dense(flattened output, 1) 

output = tf.sigmoid(logits layer) 











return output, logits layer 


3. 生成 器 


本 节 将 实现 网 络 的 第 二 部 分 ， 它 尝试 使 用 隐 空 间 z 复制 原始 输入 图 像 。 我 们 也 将 使 
用 tf.variable scope 来 实现 此 功能 。 


下 面 开 始 定义 生成 器 函数 ， 它 将 返回 生成 的 图 像 。 









































def generator(z latent space, output channel dim, is train=True): 


with tf.variable scope('generator', reuse-not is train): 
#leaky relu parameter 
leaky_param_alpha = 0.2 
fully connected layer = tf.layers.dense(z latent space, 2*2*512) 
freshaping the output back to 4D tensor to match the accepted 
format for convolution layer 





reshaped output = tf.reshape(fully connected layer, (-1, 2, 2, 
512)) 

normalized output = tf.layers.batch normalization (reshaped output, 
training-is train) 

leaky relu output = tf.maximum(leaky param alpha * 
normalized output, normalized output) 





conv layer 1 = tf.layers.conv2d transpose (leaky relu output, 256, 
5, 2, 'valid') 

normalized output = tf.layers.batch normalization(conv layer 1, 
training-is train) 

leaky relu output = tf.maximum(leaky param alpha * 
normalized output, normalized output) 


conv layer 2 = tf.layers.conv2d transpose (leaky_relu output, 128, 
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5, 2, ‘same') 


面部 生成 


normalized output = tf.layers.batch normalization(conv layer 2, 


training-is train) 


leaky relu output = tf.maximum(leaky param alpha * 
normalized output, normalized output) 


logits layer = tf.layers.conv2d transpose(leaky relu output, 


output channel dim, 5, 2, 'same') 
output = tf.tanh(logits layer) 
return output 


4. 模型 的 损失 函数 


现在 出 现 了 一 个 棘手 的 问题 , 这 在 第 14 章 
的 损失 。 


这 里 给 出 模型 损失 函数 的 定义 ， 它 将 会 利 








H 






































E 前 定义 的 生成 器 和 判别 器 函数 。 

# Define the error for the discriminator and generator 

def model losses(input actual, input latent z, out channel dim): 
f building the generator part 
gen model = generator(input latent z, out channel dim) 


Mr 




















FP 也 讨论 过 , 那 就 是 计算 判别 器 和 生成 器 


disc_model_true, disc_logits_true = discriminator (input_actual) 


disc model fake, disc logits fake = discriminator (gen model, 
reuse-True) 





disc loss true - tf.reduce mean( 


tf.nn.sigmoid cross entropy with logits(logits-disc logits true, 





labels-tf.ones like(disc model true))) 


disc loss fake - 


tf.reduce mean(tf.nn.sigmoid cross entropy with logits( 


logits-disc logits fake, labels-tf.zeros like (disc model fake))) 








gen loss = tf.reduce mean(tf.nn.sigmoid cross entropy with logits( 
logits-disc logits fake, labels-tf.ones like (disc model fake))) 





disc loss = disc loss true + disc loss fake 


return disc loss, gen loss 


5. 模型 的 优化 器 














最 后 ， 在 训练 模型 之 前 ， 需 要 为 此 任务 实现 优化 标准 。 这 里 将 使 用 之 前 使 用 的 命名 








约定 来 检索 判别 器 和 生成 器 的 可 训练 参数 并 训练 它们 。 
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# specifying the optimization criteria 


def model_optimizer(disc_loss, 


trainable vars 


disc_vars 


var.name.startswit 


gen_vars 


var.name.startswit 


disc_train_opt 
learning_ra 


update_operati 


gen_updates 


opt.name.startswit 


gen_loss, learning_rate, betal): 


tf.trainable variables () 


[var for var in trainable vars if 


h('discriminator') ] 


[var for var in trainable vars if 


h('generator') ] 


tf.train.AdamOptimizer( 
te, betal-betal).minimize (disc loss, var list-disc vars) 








ons = tf.get collection(tf.GraphKeys.UPDATE OPS) 


opt for opt in update operations if 
h('generator') | 





with tf.control_dependencies (gen_updates) : 


gen_train_opt 
learning_rate, 


return disc_train_opt, 





tf.train.AdamOptimizer( 


betal).minimize(gen loss, var list-gen vars) 


gen train opt 


6. 模型 的 训练 环节 





下 面 开 始 训练 模型 ， 
CelebA 数据 集 的 图 




















像 来 欺骗 

















r 














TUB E X n UU eT Fe S f 
判别 器 。 





程度 上 通过 生成 非常 接近 原始 


不 1 





























# define a function 


def show generator 


output channel dim, 


cmap None if 


latent space z 


examples z 


latent space z dim] 





examples 


generator(input latent z, 
feed dict-(input latent z: 


images grid 


pyplot.imshow(images grid, 


pyplot.show() 


个 辅 








助 函 数 ， 它 将 显示 生成 器 生成 的 一 些 图 像 。 











np.random.uniform(-1, 


utils.images square grid(examples, 





to visualiz 





Some generated images from the generator 


output(sess, num images, input latent z, 


img mode): 


img mode "RGB' else 'gray' 
input latent z.get shap 


1, 


dim = 





().as_list() [-1] 
size=[num_images, 





) 


sess.run ( 


output_channel_dim, False), 





xamples_z}) 





img_mode) 
cmap=cmap) 
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然后 ， 使 用 之 前 定义 的 辅助 函数 来 构建 模型 输入 、 损 失 和 优化 标准 。 这 里 将 它们 堆 
县 在 一 起 ， 并 基于 CelebA 数据 集 开始 训练 模型 。 



































def model train (num epocs, train batch size, z dim, learning rate, betal, 
get batches, input data shape, data img mode): 
_, image width, image_height, image_channels = input data shape 


actual input, z input, leaningRate = inputs ( 
image width, image height, image channels, z dim) 


disc loss, gen loss = model losses(actual input, z input, 


image channels) 


disc opt, gen opt - model optimizer(disc loss, gen loss, learning rate, 


betal) 


steps - 0 

print every - 50 
show every - 100 
[] 


num images = 25 


model loss 


with tf.Session() as sess: 


# initializing all the variables 
sess.run(tf.global variables initializer()) 


for epoch i in range (num epocs): 
for batch images in get batches (train batch size): 


steps += 1 
batch_images *= 2.0 
z sample = np.random.uniform(-1, 1, (train batch size, 
z dim)) 
. = Ssess.run(disc opt, feed dict-( 
actual input: batch images, z input: z sample, 
leaningRate: learning rate]) 
. = Ssess.run(gen opt, feed dict-( 
z input: z sample, leaningRate: learning rate}) 


9. 


if steps $ print every == 0: 
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train loss disc = disc loss.eval(íz input: z sample, 
actual input: batch images]) 


train loss gen = gen loss.eval((z input: z sample]) 





print("Epoch {}/{}...".format (epoch_i + 1, num epocs), 
"Discriminator Loss: 
(:.4£]...".format(train loss disc), 
"Generator Loss: (:.4f)".format(train loss gen)) 
model loss.append((train loss disc, train loss gen)) 
if steps $ show every == 0: 
show generator output(sess, num images, z input, 


image channels, data img mode) 


开始 训练 ， 根 据 主机 的 配置 ， 训 练 可 能 需要 一 些 时 间 。 























# Training the model on CelebA dataset 
train batch size = 64 

z dim = 100 

learning rate = 0.002 

betal = 0.5 





num_epochs = 1 
celeba_dataset = utils.Dataset('celeba', glob(os.path.join(data_dir, 
'img align celeba/*.jpg'))) 
with tf.Graph().as default(): 

model train(num epochs, train batch size, z dim, learning rate, betal, 
celeba dataset.get batches, 





celeba dataset.shape, celeba dataset.image mode) 


输出 如 下 。 
































Epoch 1/1. Discriminator Loss: 0.9118... Generator Loss: 12.2238 
Epoch 1/1. Discriminator Loss: 0.6119... Generator Loss: 3.2168 
Epoch 1/1. Discriminator Loss: 0.5383... Generator Loss: 2.8054 
Epoch 1/1. Discriminator Loss: 1.4381... Generator Loss: 0.4672 
Epoch 1/1. Discriminator Loss: 0.7815... Generator Loss: 14.8220 
Epoch 1/1. Discriminator Loss: 0.6435... Generator Loss: 9.2591 
Epoch 1/1. Discriminator Loss: 1.5661... Generator Loss: 10.4747 
Epoch 1/1. Discriminator Loss: 1.5407... Generator Loss: 0.5811 
Epoch 1/1. Discriminator Loss: 0.6470... Generator Loss: 2.9002 
































Epoch 1/1. Discriminator Loss: 0.5671... Generator Loss: 2.0700 
Epoch 1/1. Discriminator Loss: 0.7950... Generator Loss: 1.5818 
Epoch 1/1. Discriminator Loss: 1.2417... Generator Loss: 0.7094 
Epoch 1/1. Discriminator Loss: 1.1786... Generator Loss: 1.0948 
Epoch 1/1. Discriminator Loss: 1.0427... Generator Loss: 2.8878 
Epoch 1/1. Discriminator Loss: 0.8409... Generator Loss: 2.6785 
Epoch 1/1. Discriminator Loss: 0.8557... Generator Loss: 1.7706 
Epoch 1/1. Discriminator Loss: 0.8241... Generator Loss: 1.2898 
Epoch 1/1. Discriminator Loss: 0.8590... Generator Loss: 1.8217 
Epoch 1/1. Discriminator Loss: 1.1694... Generator Loss: 0.8490 
Epoch 1/1. Discriminator Loss: 0.9984... Generator Loss: 1.0042 
训练 前 期 与 训练 中 期 生成 的 样本 分 别 如 图 15.3 和 图 15.4 所 示 。 








0 20 40 的 $80 100 120 


图 15.3 ”训练 前 期 生成 的 样本 图 15.4 训练 中 期 生成 的 样本 
经 过 一 段 时 间 的 训练 ， 我 们 得 到 图 15.5 所 示 的 样本 。 



































图 15.5 训练 后 期 生成 的 样本 











339 上 


第 15 章 面部 生成 与 标签 缺失 处 理 


15.2 ”用 生成 对 抗 网 络 进行 半 监 督学 习 


读者 需 注意 , 半 监 督学 习 是 一 种 技术 ,其 中 标记 和 未 标记 的 数据 都 用 于 训练 分 类 器 

这 类 分 类 器 使 用 一 小 部 分 标记 的 数据 和 大 量 未 标记 的 数据 (来 自 同一 领域 )。 目的 是 
组 合 这 些 数 据 源 来 训练 一 个 深度 卷 积 神经 网 络 (Deep Convolution Neural Network, DCNN) 
用 来 学 习 一 个 推 炳 函数 ， 以 便 将 新 数据 点 映射 到 期 望 结果 。 

这 里 提出 了 一 个 GAN 模型 ， 使 用 一 个 非常 小 的 标记 训练 集 对 街景 房屋 号 码 进 行 分 类 。 
事实 上 ， 模 型 大 约 用 了 原 有 的 SVHN 训练 标记 的 1.3%， 即 1000 个 标记 样本 。 这 里 用 了 论文 
“Improved Techniques for Training GANs from OpenAI”( 见 arxiv 网 站 ) 中 提 到 的 一 些 技术 。 


15.2.1 直观 解释 


在 构建 一 个 用 于 生成 图 像 的 GAN 时 ， 要 同时 训练 生成 器 和 判别 器 ， 如 图 15.6 所 
示 。 在 训练 之 后 ， 将 丢弃 判别 器 ， 因 为 开发 人 员 只 用 它 来 训练 生成 器 。 









































训练 数据 集 


输入 噪声 





虚假 类 别 
图 15.6 用 在 一 个 11 类 别 分 类 问题 中 的 半 监 督学 习 GAN 架构 






































在 半 监 督学 习 中 ， 需 要 将 判别 器 转换 为 多 类 别 分 类 器 。 即 使 并 没有 许多 的 标记 样本 
用 来 训练 ， 这 个 新 模型 也 必须 能 够 在 测试 集 上 很 好 地 泛 化 。 另 外 ， 这 里 训练 结束 后 ， 开 
发 人 员 实 际 上 可 以 丢掉 生成 器 。 要 注意 这 里 的 角色 变化 。 现 在 ， 生 成 器 仅仅 是 用 来 在 训 
练 期 间 帮 助 判 别 器 的 。 换 名 话说， SENSA We TR ie 源 ， 判 别 器 从 中 获得 原 
始 的 、 未 标记 的 训练 数据 。 正 如 我 们 将 看 到 的 ， 这 些 未 标记 的 数据 是 提升 判别 器 性 能 
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关键 。 同 时 ， 对 于 常规 的 图 像 生 成 GAN， 判 别 器 只 有 一 个 角色 。 计 算 输 入 是 否 是 真实 图 
像 的 概率 ， 这 称 为 GAN 问题 。 

然而 ， 为 了 把 判别 器 变 成 半 监 督学 习 中 的 分 类 器 ， 除 了 GAN 问题 之 外 ， 判 别 器 还 
需要 学 习 原 始 数据 集中 每 个 类 别 的 概率 。 也 就 是 说 ， 对 于 每 幅 输 入 图 像 ， 判 别 器 需要 学 
习 它 是 一 、 二 、 三 等 类 别 的 概率 。 
在 图 像 生成 的 GAN 判别 器 中 ， 有 单个 sigmoid 单元 输出 。 这 个 数值 表示 了 输入 图 像 
是 真 〈 数 值 接近 于 D BUR (数值 接近 于 o 的 概率 。 换 句 话 说， 从 判别 器 的 角度 看 ， 数 
值 接近 1 表示 该 样本 很 有 可 能 来 自 训练 集 ， 数 值 接近 0 表示 样本 很 有 可 能 是 从 生成 网 络 
来 的 。 运 用 这 个 概率 ， 判 别 器 能 够 向 生成 器 输送 一 个 反馈 信号 。 该 信号 使 生成 器 能 够 在 
训练 过 程 中 调整 参数 ， 并 提升 生成 器 构建 真实 图 像 的 能 

我 们 需要 把 判别 器 (来自 之 前 的 GAN) 转换 为 11 类 别 的 分 类 器 。 为 此 ， 可 以 把 它 
的 sigmoid 输出 变 成 具有 11 个 输出 的 softmax， 前 10 个 类 别 是 SVHN 数据 集中 各 个 类 别 
的 概率 (O~9), ME 11 个 类 别 是 所 有 从 生成 器 中 产生 的 虚假 图 像 。 


如 果 把 第 11 个 类 别 的 概率 设 为 0, 那 么 前 10 个 概率 的 和 表示 的 是 与 sigmoid 
í 5 BARA ELA RAF ode. 











































































































































































































最 后 ， 需 要 设置 损失 函数 ， 使 得 判别 器 能 够 做 到 以 下 两 点 。 
e 帮助 生成 器 产生 真实 图 像 。 为 此 ， 需 要 引导 判别 器 区 分 真实 和 虚假 样本 。 

e 使 用 生成 器 的 图 像 ， 以 及 标记 和 未 标记 的 训练 数据 ， 来 帮助 对 数据 集 进 行 分 类 。 

总 的 来 说 ， 判 别 器 有 3 类 不 同 来 源 的 训练 数据 。 

e 带 标记 的 真实 图 像 : 这 是 图 像 标签 对 ， 和 任何 常规 的 监督 分 类 问题 一 样 。 

e 不 带 标记 的 真实 图 像 : 对 于 这 些 图 像 ， 分 类 器 只 能 学 到 这 些 图 像 是 真 的 。 

e 从 生成 器 产生 的 图 像 ， 对 于 这 些 数据 ， 判 别 器 学 习 分 辨 它们 是 假 的 。 

这 些 不 同 数据 源 的 组 合 将 使 分 类 器 能 够 从 更 广泛 的 角度 进行 学 习 。 反 之 ， 这 也 使 
得 模型 能 够 比 仅 使 用 1000 个 带 标记 的 样本 进行 训练 时 更 精确 地 进行 推理 。 
15.2.2 ”数据 分 析 与 预 处 理 


数据 分 析 与 预 处 理 将 使 用 SVHN 数据 集 ，SVHYV 是 斯 坦 福 的 街景 房屋 号 码 (Street 
View House Numbers) 的 缩写 。 现 在 从 导入 这 一 实现 所 需 的 类 库 开始 。 
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十 


Lets start by loading the necessary libraries 
$matplotlib inline 


import pickle as pkl 

import time 

import matplotlib.pyplot as plt 
import numpy as np 

from scipy.io import loadmat 


import tensorflow as tf 








import os 


接 下 来 ， 定 义 一 个 辅助 类 来 下 载 SVHN 数据 集 ( 记 住 ， 要 先 手动 创建 input_data_dir)。 



































from urllib.request import urlretrieve 
from os.path import isfile, isdir 

from tqdm import tqdm 

input data dir = 'input/' 


input data dir = 'input/' 


if not isdir(input data dir): 





raise Exception("Data directory doesn't exist!") 


class DLProgress (tqdm): 
last block = 0 


def hook(self, block num-1, block size-1, total size-None): 
self.total = total size 
self.update((block num - self.last block) * block size) 
self.last block = block num 


if not isfile(input data dir + "train 32x32.mat"): 
with DLProgress(unit-'B', unit scale-True, miniters-1, desc-'SVHN 
Training Set') as pbar: 
urlretrieve( 
'http://ufldl.stanford.edu/housenumbers/train 32x32.mat', 
input data dir + 'train 32x32.mat', 
pbar.hook) 


if not isfile(input data dir + "test 32x32.mat"): 


with DLProgress(unit-'B', unit scale-True, miniters-1, desc-'SVHN 


$$$ qá 
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Training Set') as pbar: 
urlretrieve ( 
'http://ufldl.stanford.edu/housenumbers/test 32x32.mat', 
input data dir + 'test 32x32.mat', 
pbar.hook) 


train data = loadmat(input data dir + 'train 32x32.mat') 
test data = loadmat(input data dir + 'test 32x32.mat') 


输出 如 下 。 


trainset shape: (32, 32, 3, 73257) 
testset shape: (32, 32, 3, 26032) 


通过 以 下 代码 看 一 看 这 些 图 像 的 样子 。 


indices = np.random.randint(0, train_data['X'].shape[3], size=36) 
fig, axes = plt.subplots(6, 6, sharex=True, sharey=True, figsize=(5,5),) 





for ii, ax in zip(indices, axes.flatten()): 
ax.imshow(train data['X'][:,:,:,ii], aspect-'equal') 
ax.xaxis.set visible (False) 
ax.yaxis.set visible (False) 

plt.subplots adjust(wspace-0, hspace-0) 


输出 如 图 15.7 所 示 。 





图 15.7 从 SVHN 数据 集中 的 采样 图 像 








接 下 来 ， 我 们 需要 把 图 像 缩放 到 -1 一 1， 这 个 操作 很 有 必要 ， 因 为 会 用 到 tanh() 函 数 


X8 
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来 压缩 生成 器 的 输出 值 。 























# Scaling the input images 





def scale images(image, feature range-(-1, 1)): 
# scale image to (0, 1) 


image = ((image - image.min()) / (255 - image.min())) 


f scale the image to feature rang 








min, max = feature rang 
image = image * (max - min) + min 


return image 


class Dataset: 


def init (self, train set, test set, validation frac-0.5, 


shuffle data-True, scale func=None): 





split ind = int(len(test set['y']) * (1 - validation frac)) 





self.test input, self.valid input - test set['X'][:, 
:split ind], test set['X'][:, :, :, split ind:] 
self.test target, self.valid target = test set['y'] 





test set['y'][split ind:] 
self.train input, self.train target - train set['X'], 








going to assume that we don't have all labels 





like, assume that we have only 1000 


t, baer á 


[:split_ind], 


train_set['y'] 


The street house number dataset comes with lots of labels, 
but because we are going to do semi-supervised learning we are 


self.label mask = np.zeros like(self.train target) 


self.label mask[0:1000] = 1 


self.train input = np.rollaxis(self.train input, 


self.valid input = np.rollaxis(self.valid input, 





self.test input = np.rollaxis(self.test input, 3) 


if scale func is None: 





self.scaler = scale images 
else: 

self.scaler = scale func 
self.train input = self.scaler(self.train input) 
self.valid input = self.scaler(self.valid input) 


self.test input = self.scaler(self.test input) 
self.shuffle = shuffle data 


def batches (self, batch size, which _set="train"): 


3) 
3) 
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input_name = which set + "_input" 


target name = which set + " target" 


num samples = len(getattr(dataset, target_name) ) 
if self.shuffle: 
indices = np.arange (num samples) 
np.random.shuffle (indices) 
setattr(dataset, input name, getattr (dataset, 
input name) [indices]) 
setattr(dataset, target name, getattr(dataset, 
target name) [indices]) 


if which set == "train": 





dataset.label mask = dataset.label mask[indices] 


dataset input = getattr(dataset, input name) 
dataset target = getattr(dataset, target name) 





for jj in range(0, num samples, batch size): 
input vals = dataset input[jj:jj + batch size] 
target vals = dataset target[jj:jj + batch size] 





if which set -- "train": 
including the label mask in case of training 
to pretend that we don't have all the labels 





yield input vals, target vals, self.label mask[jj:jj + 
batch size] 


else: 


yield input vals, target vals 


15.2.3 ”构建 模型 


在 本 节 中 ， 我 们 将 构建 测试 所 需要 的 旨 
的 输入 开始 。 


1. 模型 输入 
首先 ， 定 义 模型 的 输入 函数 ， 构 建 用 于 输送 数据 到 计算 图 的 输入 占 位 符 。 














Tig 








a 
E: 

















， 因 此 下 面 从 定义 用 来 输送 数据 到 计算 图 











# defining the model inputs 
def inputs(actual_dim, z dim): 


inputs actual = tf.placeholder(tf.float32, (None, *actual dim), 
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name='input_actual') 
inputs_latent_z = tf.placeholder(tf.float32, (None, z_dim), 
name-'input latent z') 


target = tf.placeholder(tf.int32, (None), name='target') 
label mask = tf.placeholder(tf.int32, (None), name-'label mask') 








return inputs actual, inputs latent z, target, label mask 


2. 生成 器 


下 面 实现 GAN 的 第 一 个 核心 部 分 ， 这 部 分 的 架构 和 实现 将 以 原本 的 DCGAN 文章 
为 依据 。 























def generator(latent_z, output_image_dim, reuse_vars=False, 








leaky_alpha=0.2, is training-True, size mult=128): 
with tf.variable scope('generator', reuse-reuse vars): 
# define a fully connected layer 





fully conntected 1 = tf.layers.dense(latent z, 4 * 4 * size 
mult * 4) 


f Reshape it from 2D tensor to 4D tensor to be fed to the 
convolution neural network 

reshaped out 1 = tf.reshape(fully conntected 1, (-1, 4, 4, 
size mult * 4)) 

batch normalization 1 = 
tf.layers.batch normalization(reshaped out 1, training-is training) 

leaky output 1 = tf.maximum(leaky alpha * batch normaliza 
tion 1, batch normalization 1) 


conv layer 1 = tf.layers.conv2d transpose(leaky output 1, size. 
mult * 2, 5, strides-2, padding='same') 

batch normalization 2 = tf.layers.batch normalization(conv 
layer 1, training-is training) 

leaky output 2 = tf.maximum(leaky alpha * batch normalization 
2, batch normalization 2) 


conv layer 2 = tf.layers.conv2d transpose(leaky output 2, size 
mult, 5, strides-2, padding='same') 

batch normalization 3 = tf.layers.batch normalization (conv layer 2, 
training-is training) 


leaky output 3 = tf.maximum(leaky alpha * batch normalization. 
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3, batch normalization 3) 

# defining the output layer 

logits layer = tf.layers.conv2d transpose (leaky output 3, 
output image dim, 5, strides-2, padding='same') 


output = tf.tanh(logits layer) 


return output 


3. 判别 器 


下 面 构建 GAN 的 第 二 个 核心 部 分 ， 即 判别 器 。 在 之 前 的 实现 中 ， 判 别 器 将 产生 一 
个 二 值 输出 ， 表 示 输 入 数据 是 从 真实 数据 来 的 (1) 还 是 从 生成 器 中 生成 的 《0)。 因 为 这 
里 的 场景 有 所 不 同 ， 所 以 判别 器 将 是 一 个 多 类 别 分 类 器 。 


下 面 继续 构建 架构 中 的 判别 器 部 分 。 
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# Defining the discriminator part of the network 





def discriminator (input_x, reuse vars-False, leaky_alpha=0.2, 
drop out rate-0., num_classes=10, size mult=64): 


with tf.variable scope('discriminator', reuse-reuse vars): 


defining a dropout layer 


drop out output = tf.layers.dropout(input x, rate-drop out rate / 


Defining the input layer for the discriminator which is 32x32x3 
conv layer 3 = tf.layers.conv2d(input x, size mult, 3, strides-2, 
padding-'same') 











leaky output 4 = tf.maximum(leaky alpha * conv layer 3, conv. 
layer 3) 

leaky output 4 = tf.layers.dropout(leaky output 4, rate-drop 
out rate) 

conv layer 4 = tf.layers.conv2d(leaky output 4, size mult, 3, 


strides-2, padding='same') 
batch normalization 4 = tf.layers.batch normalization(conv 
layer 4, training-True) 


leaky output 5 = tf.maximum(leaky alpha * batch normalization. 
4, batch normalization 4) 


conv layer 5 = tf.layers.conv2d(leaky output 5, size mult, 3, 
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strides-2, padding-'same') 

batch normalization 5 = tf.layers.batch normalization(conv . 
layer 5, training-True) 

leaky output 6 = tf.maximum(leaky alpha * batch normalization. 
5, batch normalization 5) 

leaky output 6 = tf.layers.dropout(leaky output 6, rate-drop 
out rate) 


conv layer 6 = tf.layers.conv2d(leaky output 6, 2 * size mult, 
3, strides-1, padding='same') 

batch normalization 6 = tf.layers.batch normalization(conv 
layer 6, training-True) 

leaky output 7 = tf.maximum(leaky alpha * batch normalization. 
6, batch normalization 6) 


conv layer 7 = tf.layers.conv2d(leaky output 7, 2 * size mult, 
3, strides-1, padding='same') 

batch normalization 7 = tf.layers.batch normalization(conv 
layer 7, training-True) 

leaky output 8 = tf.maximum(leaky alpha * batch normalization 7, 


batch normalization 7) 


conv layer 8 = tf.layers.conv2d(leaky output 8, 2 * size mult, 
3, strides-2, padding='same') 

batch normalization 8 = tf.layers.batch normalization(conv. 
layer 8, training-True) 

leaky output 9 = tf.maximum(leaky alpha * batch normalization. 
8, batch normalization 8) 

leaky output 9 = tf.layers.dropout(leaky output 9, rate=drop_ 


out rate) 


conv layer 9 = tf.layers.conv2d(leaky output 9, 2 * size mult, 


3, strides-1, padding='valid') 


leaky output 10 = tf.maximum(leaky alpha * conv layer 9, conv. 


layer 9) 














这 里 没有 在 结尾 使 用 一 个 全 连接 层 ， 而 是 采用 称 为 全 局 平均 池 化 (global average 
pooling, GAP) 的 层 ， 它 取 特 征 向 量 空 间 维 度 的 平均 值 ， 这 将 产生 仅 有 一 个 单 值 的 压缩 
张 量 。 














2 
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# Flatten it by global average pooling 
leaky output features = tf.reduce mean(leaky output 10, (1, 2)) 








例如 ， 假 设 在 很 多 卷 积 之 后 ， 得 到 了 一 个 输出 张 量 ， 形 状 如 下 。 














[BATCH_SIZE, 8, 8, NUM_CHANNELS] 


为 了 使 用 全 局 平均 池 化 ， 需 要 计算 [8x8] 张 量 片 段 的 平均 值 。 该 操作 将 得 到 一 个 如 下 








形状 的 张 量 。 





[BATCH SIZE, 1, 1, NUM CHANNELS] 


可 以 把 它 重 塑 为 : 








[BATCH_SIZE, NUM CHANNELS] 


在 使 用 全 局 平均 池 化 之 后 , 加 上 一 个 全 连接 层 ， 它 将 输出 最 后 的 对 数 ， 其 形状 如 下 。 





























[BATCH SIZE, NUM CLASSES] 


它 表 示 各 个 类 别 的 分 数 。 为 了 得 到 这 些 分 数 的 概率 ， 将 使 用 softmax 激活 














B 











P4 





# Get the probability that the input is real rather than fake 
softmax output = tf.nn.softmax(classes logits)s 





最 后 的 判别 器 函数 如 下 。 


# Defining the discriminator part of the network 
def discriminator (input_x, reuse vars-False, leaky_alpha=0.2, 





drop out rate-0., num classes-10, size mult=64): 
with tf.variable scope('discriminator', reuse-reuse vars): 


# defining a dropout layer 
drop out output = tf.layers.dropout(input x, rate-drop out rate / 


# Defining the input layer for the discrminator which is 32x32x3 
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conv layer 3 = tf.layers.conv2d(input x, size mult, 3, strides=2, 
padding-'same') 


leaky output 4 tf.maximum(leaky alpha * conv layer 3, conv. 
layer 3) 


leaky output 4 = tf.layers.dropout(leaky output 4, rate-drop 


out rate) 


conv layer 4 = tf.layers.conv2d(leaky output 4, size mult, 3, 
strides-2, padding='same') 

batch normalization 4 = tf.layers.batch normalization(conv 
layer 4, training-True) 

leaky output 5 = tf.maximum(leaky alpha * batch normalization. 
4, batch normalization 4) 


conv layer 5 = tf.layers.conv2d(leaky output 5, size mult, 3, 
strides-2, padding-'same') 

batch normalization 5 = tf.layers.batch normalization(conv 
layer 5, training-True) 

leaky output 6 = tf.maximum(leaky alpha * batch normalization. 
5, batch normalization 5) 

leaky output 6 = tf.layers.dropout(leaky output 6, rate-drop 
out rate) 


conv layer 6 = tf.layers.conv2d(leaky output 6, 2 * size mult, 
3, strides-1, padding='same') 

batch normalization 6 = tf.layers.batch_normalization(conv_ 
layer 6, training-True) 

leaky output 7 = tf.maximum(leaky alpha * batch normalization 
6, batch normalization 6) 


conv layer 7 = tf.layers.conv2d(leaky output 7, 2 * size mult, 
3, strides-1, padding='same') 

batch normalization 7 = tf.layers.batch normalization(conv 
layer 7, training-True) 

leaky output 8 = tf.maximum(leaky alpha * batch normalization. 
7, batch normalization 7) 


conv layer 8 = tf.layers.conv2d(leaky output 8, 2 * size mult, 
3, strides-2, padding='same') 

batch normalization 8 = tf.layers.batch normalization(conv. 
layer 8, training-True) 

leaky output 9 = tf.maximum(leaky alpha * batch normalization. 
8, batch normalization 8) 
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leaky output 9 = tf.layers.dropout(leaky output 9, rate=drop_ 
out rate) 


conv layer 9 = tf.layers.conv2d(leaky output 9, 2 * size mult, 


3, strides-1, padding='valid') 


leaky output 10 = tf.maximum(leaky alpha * conv layer 9, conv. 


layer 9) 


Flatten it by global average pooling 
leaky output features = tf.reduce mean(leaky output 10, (1, 2)) 








Set class logits to be the inputs to a softmax distribution 
over the different classes 
classes logits = tf.layers.dense(leaky output features, num. 














classes + extra class) 


if extra class: 








actual class logits, fake class logits = tf.split(classes 
logits, [num classes, 1], 1) 

assert fake class logits.get shape()[1] == 1, fake class 
logits.get shape() 

fake class logits = tf.squeeze(fake class logits) 

else: 
actual class logits = classes logits 
fake class logits = 0. 


max reduced = tf.reduce max(actual class logits, 1, keep dims- 





True) 
stable actual class logits - actual class logits - max reduced 





gan logits = tf.log(tf.reduce sum(tf.exp(stable actual class 





logits), 1)) + tf.squeeze(max reduced) - fake class logits 





softmax output = tf.nn.softmax(classes logits) 


return softmax output, classes logits, gan logits, leaky output 


features 


4. 模型 的 损失 函数 


下 面 定义 模型 的 损失 。 判 别 器 损失 分 为 两 部 分 : 第 一 部 分 表示 GAN 问题 ， 即 无 监 
督 损 失 ， 第 二 部 分 计算 各 个 真实 类 别 的 概率 ， 即 监督 损失 。 
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对 于 判别 器 的 无 监督 损失 ， 需 要 区 分 真实 训练 图 像 和 生成 器 生成 的 图 像 。 


对 一 个 常规 的 GAN 来 说 ， 在 一 半 的 时 间 里 判别 器 会 以 从 训练 集 得 到 的 未 标记 
作为 输入 ， 在 男 一 半 的 时 间 里 以 从 生成 器 中 生成 的 虚假 、 未 标记 的 图 像 作为 输入 。 


对 于 判别 器 损失 的 第 二 部 分 ， 即 监督 损失 ， 需 要 基于 判别 器 的 对 数 来 构建 。 因 为 这 
是 一 个 多 分 类 问题 ， 所 以 将 用 到 softmax 52 SLi » 


正如 “Enhanced Techniques for Training GANs” 一 文中 提 到 的 ， 应 该 对 生成 器 的 损 
失 使 用 特征 匹配 。 作 者 的 描述 为 : 


“特征 匹配 的 概念 是 惩罚 训练 数据 上 的 某 些 特征 集 的 平均 值 与 生成 样本 上 
的 那个 特征 集 的 平均 值 的 平均 绝对 误差 。 为 此 ， 要 从 两 个 不 同 的 来 源 中 获取 一 
些 统计 数据 (FE) 并 强制 它们 相似 。 首 先 ， 获 取 在 处 理 真实 训练 的 最 小 批 数 据 
时 从 判别 器 中 提取 的 特征 的 平均 值 。 其 次 ， 当 判别 器 在 分 析 包 含 从 生成 器 产生 
的 虚假 图 像 的 最 小 批 时 ， 用 相同 的 方式 计算 矩 。 最 后 ， 在 这 两 个 矩 集 合 的 基础 
上 ， 生 成 器 的 损失 就 是 它们 之 间 的 平均 绝对 差 。 换 匈 话 说， 如 文章 所 强调 的 : 
训练 生成 器 以 匹配 判别 器 中 间 层 上 的 特征 的 预期 值 .” 


最 终 ， 模 型 的 损失 函数 如 下 。 




















DS 











像 




























































































def model losses(input actual, input latent z, output dim, target, 
num classes, label mask, leaky alpha-0.2, 


drop out rate-0.): 


f These numbers multiply the size of each layer of the generator 


and the discriminator, 


# respectively. You can reduce them to run your code faster for 
debugging purposes. 
gen size mult - 32 





disc size mult = 64 


# Here we run the generator and the discriminator 





gen model = generator(input latent z, output dim, leaky alpha- 
leaky alpha, size mult-gen size mult) 





disc on data = discriminator(input actual, leaky alpha-leaky 
alpha, drop out rate-drop out rate, 
Size mult-disc size mult) 


disc model real, class logits on data, gan logits on data, data 
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features = disc on data 





disc on samples = discriminator(gen_model, reuse_vars=True, 
leaky_alpha=leaky_alpha, 
drop_out_rate=drop_out_rate, 
size mult-disc size mult) 
disc model fake, class logits on samples, gan logits on samples, 


sample features = disc on samples 


# Here we compute "disc loss'^, the loss for the discriminator. 

disc loss actual = tf.reduce mean(tf.nn.sigmoid cross entropy 
with logits(logits-gan logits on data, labels-tf.ones like(gan logits 
on data))) 

disc loss fake = tf.reduce mean(tf.nn.sigmoid cross entropy with 











logits(logits-gan logits on samples, labels-tf.zeros like(gan logits 
on samples))) 

target = tf.squeeze (target) 

Classes cross entropy = tf.nn.softmax cross entropy with logits 
(logits-class logits on data, labels=tf.one_hot (target, num classes + 
extra class, dtype-tf.float32)) 

classes cross entropy = tf.squeeze(classes cross entropy) 

label m = tf.squeeze(tf.to float(label mask)) 

disc loss class - tf.reduce sum(label m * classes cross entropy) / 
tf.maximum(1., tf.reduce sum(label m)) 

disc loss = disc loss class + disc loss actual + disc loss fake 


# Here we set ‘gen loss to the "feature matching" loss invented 


by Tim Salimans. 
sampleMoments - tf.reduce mean(sample features, axis-0) 





dataMoments = tf.reduce mean(data features, axis=0) 





gen loss = tf.reduce mean(tf.abs(dataMoments - sampleMoments)) 





prediction class = tf.cast(tf.argmax(class logits on data, 1), 


tf.int32) 





check prediction = tf.equal(tf.squeeze(target), prediction class) 











correct = tf.reduce sum(tf.to float(check prediction)) 
masked correct = tf.reduce sum(label m * tf.to float(check_ 
prediction)) 





return disc loss, gen loss, correct, masked correct, gen model 
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5. 模型 的 优化 器 
下 面 定义 模型 的 优化 器 ， 它 和 之 前 定义 的 那个 优化 器 十 分 类 似 。 




















def model_optimizer(disc_loss, gen_loss, learning_rate, betal) : 


# Get weights and biases to update. Get them separately for the 
discriminator and the generator 





trainable vars = tf.trainable variables () 

disc vars = [var for var in trainable vars if var.name.startswith 
('discriminator') ] 

gen_vars = [var for var in trainable vars if var.name.startswith 
('generator') ] 


for t in trainable vars: 


assert t in disc_vars or t in gen_vars 


# Minimize both gen and disc costs simultaneously 

disc_train_optimizer = tf.train.AdamOptimizer(learning rate, 
betal-betal).minimize(disc loss, var list-disc vars) 

gen train optimizer = tf.train.AdamOptimizer(learning rate, 
betal-betal).minimize(gen loss, var list-gen vars) 


shrink learning rate = tf.assign(learning rate, learning rate * 


0.9) 


return disc train optimizer, gen train optimizer, shrink learning 
rate 


6. 模型 的 训练 环节 
最 后 ， 将 上 述 所 有 部 分 合 在 一 起 开始 进入 训练 过 各 


O 





MR: 
o 





class GAN: 
def init (self, real size, z size, learning rate, num classes= 
10, alpha=0.2, betal=0.5): 
tf.reset default graph() 


self.learning rate = tf.Variable(learning rate, trainable= 
False) 

model inputs = inputs(real size, z size) 

self.input actual, self.input latent z, self.target, self. 
label mask = model inputs 


self.drop out rate = tf.placeholder with default(.5, (), 
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"drop out rate") 





losses results = model losses(self.input actual, self.input 


latent z, 
real size[2], self.target, 





num classes, 





label mask-self.label mask, 
leaky_alpha=0.2, 
drop_out_rate=self.drop_out_rate) 


self.disc_loss, self.gen_loss, self.correct, self.masked_ 





correct, self.samples = losses_results 


self.disc_opt, self.gen_opt, self.shrink_learning_rate = 
model_optimizer(self.disc_loss, self.gen_loss, self.learning_rate, betal) 


def view_generated_samples(epoch, samples, nrows, ncols, figsize=(5, 5)): 
fig, axes = plt.subplots(figsize=figsize, nrows=nrows, ncols=ncols, 








sharey=True, sharex=True) 
for ax, img in zip(axes.flatten(), samples[epoch]): 
ax.axis('off') 
img = ((img - img.min()) * 255 / (img.max() - img.min())). 
astype (np.uint8) 
ax.set adjustable('box-forced') 


im = ax.imshow(img) 


plt.subplots adjust(wspace-0, hspace=0) 


return fig, axes 
def train(net, dataset, epochs, batch size, figsize-(5, 5)): 


saver = tf.train.Saver() 
sample z = np.random.normal(0, 1, size-(50, latent space z size)) 


samples, train accuracies, test accuracies = [], [1], [] 
steps - 0 
with tf.Session() as sess: 


sess.run(tf.global variables initializer()) 


for e in range(epochs): 





print("Epoch", e) 


num samples = 0 
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num correct samples = 0 

for x, y, label mask in dataset.batches(batch size): 
assert 'int' in str(y.dtype) 
steps += 1 
num samples += label mask.sum() 


# Sample random noise for G 
batch z = np.random.normal(0, 1, size-(batch size, 
latent space z size)) 


_, ., correct = sess.run([net.disc opt, net.gen opt, 
net.masked correct], 





feed dict-(net.input actual: 
x, net.input latent z: batch z, 


net.target: y, 
net.label mask: label mask]) 


num correct samples += correct 
sess.run([net.shrink learning rate]) 


training accuracy - num correct samples / 
float(num samples) 


print("NtNtClassifier train accuracy: ", training accuracy) 


num samples = 0 


num correct samples = 0 


for x, y in dataset.batches (batch size, which set-"test"): 
assert 'int' in str(y.dtype) 
num samples += x.shape[0] 


correct, = sess.run([net.correct], 
feed dict-(net.input real: x, 


net.y: y, 
net.drop rate: 0.}) 


num correct samples += correct 


testing accuracy = num correct samples / float (num samples) 
print("NtNtClassifier test accuracy", testing accuracy) 


gen samples = sess.run ( 


net.samples, 


—— 356 #— S$ Nr 


15.2 用 生成 对 抗 网 络 进行 半 监 督学 习 


feed dict={net.input latent z: sample z}) 
samples.append(gen_samples) 





. = view generated samples(-1, samples, 5, 10, 
figsize-figsize) 
plt.show() 


f Save history of accuracies to view after training 
train accuracies.append(training accuracy) 
test accuracies.append(testing accuracy) 


saver.save(sess, './checkpoints/generator.ckpt') 


with open('samples.pkl', 'wb') as f: 
pkl.dump(samples, f) 


return train accuracies, test accuracies, samples 


不 要 起 了 创建 检查 点 的 目录 。 








real size = (32,32,3) 
latent space z size = 100 
learning rate = 0.0003 





net = GAN(real size, latent space z size, learning rate) 


dataset = Dataset (train data, test data) 


train batch size = 128 
num epochs = 25 
train_accuracies, test_accuracies, samples = train(net, 


dataset, 
num_epochs, 
train_batch_size, 
figsize=(10,5) ) 


最 后 ， 在 Epoch 24 中 ， 我 们 获得 如 下 输出 的 样本 图 像 如 图 15.8 所 示 。 








=> 
Ee 








Epoch 24 





Classifier train accuracy: 0.937 
Classifier test accuracy 0.67401659496 
Step time: 0.03694915771484375 

Epoch time: 26.15842580795288 
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配 损失 的 生成 网 络 产生 的 样本 图 像 











图 15.8 ”使 用 特征 























运行 以 下 代码 得 到 的 结果 如 图 15.9 所 示 。 
fig, ax = plt.subplots() 

plt.plot(train accuracies, label='Train', alpha=0.5) 
plt.plot(test accuracies, label='Test', alpha=0.5) 
plt.title ("Accuracy") 

plt.legend () 


Accuracy 


一 一 Train 
— Test 


0 5 10 15 20 25 


图 15.9 训练 过 程 中 的 训练 准确 率 与 测试 准确 率 





























尽管 特征 匹配 损失 在 半 监 督学 习 任务 中 表现 良好 , 但 是 生成 器 产生 的 图 像 并 不 像 之 前 
的 章节 中 产生 的 图 像 那样 好 。 这 个 实现 主要 是 为 了 演示 如 何 使 用 GAN 进行 半 监 督学 习 
的 设 定 。 
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15.3 总结 





许多 研究 人 员 认 为 无 监督 学 习 是 一 般 AI 系统 中 缺失 的 环节 。 为 了 克服 这 些 障 碍 ， 
尝试 使 用 较 少 的 标记 数据 来 解决 指定 的 问题 是 一 个 关键 。 在 这 种 场景 下 ，GAN 为 使 用 少 
量 标记 的 样本 学 习 复杂 的 任务 提供 了 另 一 个 替代 方案 。 然 而 ， 监 督学 习 和 半 监 督学 习 之 
间 的 性 能 差距 仍然 很 大 。 随 着 新 技术 的 产生 ， 这 种 差距 有 望 越 来 越 小 。 
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以 下 是 第 1 章 中 鱼 类 识别 部 分 的 完整 代码 。 


* 


鱼 类 


只 别 部 分 的 代码 


在 讲解 了 鱼 类 识别 示例 的 主要 构建 模块 后 ， 我 们 将 所 有 代码 段落 连接 在 一 起 ， 来 看 
看 如 何 使 用 几 行 代码 构建 一 个 复杂 的 系统 。 





















































#Loading the required libraries along with the deep learning platform Keras 
with TensorFlow as backend 

import numpy as np 

np.random.seed (2017) 

import os 

import glob 

import cv2 

import pandas as pd 

import time 

import warnings 

from sklearn.cross validation import KFold 

from keras.models import Sequential 

from keras.layers.core import Dense, Dropout, Flatten 

from keras.layers.convolutional import Convolution2D, MaxPooling2D, 
ZeroPadding2D 

from keras.optimizers import SGD 


from keras.callbacks import EarlyStopping 





from keras.utils import np utils 


from sklearn.metrics import log loss 





from keras import _ version as keras version 
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Parameters 
x : type 
Description of parameter `x` 





f rezize image (img path): 
img = cv2.imread(img path) 
img resized = cv2.resize(img, (32, 32), cv2.INTER LINEAR) 


return img resized 

















#Loading the training samples from their corresponding folder names, wher 





we have a folder for each type 


def load training samples(): 


#Variables to hold the training input and output variables 
train input variables = [] 
train input variables id = [] 
train label = [] 
f Scanning all images in each folder of a fish type 
print('Start Reading Train Images') 
folders = ['ALB', 'BET', 'DOL', 'LAG', 'NoF', 'OTHER', 'SHARK', 'YFT'] 
for fld in folders: 
folder index = folders.index(fld) 
print('Load folder {} (Index: {})'.format(fld, folder index)) 
imgs path = os.path.join('..', 'input', 'train', fld, '*.jpg') 











files = glob.glob(imgs path) 
for file in files: 
file base = os.path.basename (file) 





Resize the imag 








resized img = rezize image(file) 


Appending the processed image to the input/output variables of 





the classifier 





train input variables.append(resized img) 
train input variables id.append(file base) 





train label.append(folder index) 


return train input variables, train input variables id, train label 


#Loading the testing samples which will be used to testing how well the 


model was trained 


def load testing samples(): 





Scanning images from the test folder 
imgs path = os.path.join('..', 'input', 'test stgl', '*.jpg') 
files = sorted(glob.glob(imgs path)) 





Variables to hold the testing samples 
testing samples = [] 
testing samples id - [] 








Processing the images and appending them to the array that we have 
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for file in files: 
file base = os.path.basename (file) 


# Image resizing 





resized img = rezize image(file) 





testing samples.append(resized img) 
testing samples id.append(file base) 
return testing samples, testing samples id 
# formatting the images to fit our model 
def format results for types(predictions, test id, info): 
model results = pd.DataFrame(predictions, columns-['ALB', 'BET', 'DOL', 
'LAG', 'NoF', 'OTHER', 
'SHARK', 'YFT']) 


model results.loc[:, 'image'] = pd.Series(test id, 














index-model results.index) 
sub file = 'testOutput ' + info + '.csv' 





model results.to csv(sub file, index-False) 
def load normalize training samples(): 
Calling the load function in order to load and resize the training 
samples 
training samples, training label, training samples id - 
load training samples () 
Converting the loaded and resized data into Numpy format 
training samples = np.array(training samples, dtype-np.uint8) 
training label = np.array(training label, dtype=np.uint8) 
Reshaping the training samples 
training samples - training samples.transpose((0, 3, 1, 2)) 
Converting the training samples and training labels into float format 











training samples - training samples.astype('float32') 
training samples - training samples / 255 
training label - np utils.to categorical(training label, 8) 


return training samples, training label, training samples id 
fLoading and normalizing the testing sample to fit into our model 
def load normalize testing samples(): 
Calling the load function in order to load and resize the testing 
samples 
testing samples, testing samples id = load testing samples () 
Converting the loaded and resized data into Numpy format 

















testing samples = np.array(testing samples, dtype-np.uint8) 
Reshaping the testing samples 

testing samples = testing samples.transpose((0, 3, 1, 2)) 
Converting the testing samples into float format 

testing samples = testing samples.astype('float32') 

testing samples = testing samples / 255 
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return testing samples, testing samples id 
def merge several folds mean(data, num folds): 

a = np.array (data[0]) 

for i in range(1, num folds): 

a += np.array(data[i]) 

a /= num folds 

return a.tolist() 
# Create CNN model architecture 
def create cnn model arch(): 











pool size = 2 # we will use 2x2 pooling throughout 
conv depth 1 = 32 4 we will initially have 32 kernels per conv. layer... 
conv depth 2 = 64 4 ...switching to 64 after the first pooling layer 
kernel size = 3 # we will use 3x3 kernels throughout 
drop prob = 0.5 # dropout in the FC layer with probability 0.5 
hidden size = 32 # the FC layer will have 512 neurons 
num classes = 8 4 there are 8 fish types 

Conv [32] -» Conv [32] -> Pool 
cnn model = Sequential () 


cnn_model.add(ZeroPadding2D((1, 1), input_shape=(3, 32, 32), 
dim_ordering='th") ) 





cnn_model.add(Convolution2D(conv_depth_1, kernel_size, kernel_size, 
activation='relu', dim ordering-'th')) 


cnn model.add(ZeroPadding2D((1, 1), dim ordering-'th') 





cnn model.add(Convolution2D(conv depth 1, kernel size, kernel size, 





activation-'relu', dim ordering-'th')) 

cnn model.add(MaxPooling2D (pool size- (pool size, pool size), strides-(2, 
2), dim ordering-'th')) 

Conv [64] -» Conv [64] -> Pool 

cnn model.add(ZeroPadding2D((1, 1), dim ordering-'tnh')) 

cnn model.add(Convolution2D(conv depth 2, kernel size, kernel size, 





activation-'relu', dim ordering-'th')) 
cnn model.add(ZeroPadding2D((1, 1), dim ordering-'tnh')) 
cnn model.add(Convolution2D(conv depth 2, kernel size, kernel size, 





activation-'relu', dim ordering-'th')) 
cnn model.add(MaxPooling2D (pool size- (pool size, pool size), strides-(2, 
2), dim ordering-'th')) 
Now flatten to 1D, apply FC then ReLU (with dropout) and finally 
softmax(output layer) 

cnn model.add(Flatten()) 











cnn model.add(Dense(hidden size, activation-'relu')) 


cnn model.add(Dropout (drop prob)) 








( 
( 

cnn model.add(Dense(hidden size, activation-'relu')) 
( 


cnn model.add(Dropout (drop prob)) 
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cnn model.add(Dense(num classes, activation='softmax') ) 
# initiating the stochastic gradient descent optimiser 





stochastic gradient descent = SGD(lr-1e-2, decay=le-6, momentum=0.9, 
nesterov-True) 

cnn model.compile(optimizer-stochastic gradient descent, # using the 
stochastic gradient descent optimiser 
loss-'categorical crossentropy') # using the cross- 
entropy loss function 

return cnn model 
#Model using with kfold cross validation as a validation method 
def create model with kfold cross validation (nfolds=10): 

batch size = 16 in each iteration, we consider 32 training examples at 














once 





num epochs = 30 # we iterate 200 times over th ntire training set 
random state = 51 # control the randomness for reproducibility of the 
results on the same platform 
Loading and normalizing the training samples prior to feeding it to the 
created CNN model 
training samples, training samples target, training samples id - 
load normalize training samples () 
yfull train = dict() 
Providing Training/Testing indices to split data in the training 
samples 
which is splitting data into 10 consecutive folds with shuffling 
kf = KFold(len(train id), n folds-nfolds, shuffle=True, 
random state-random state) 





fold number = 0 # Initial value for fold number 
sum score = 0 # overall score (will be incremented at each iteration) 





trained models = [] # storing the modeling of each iteration over the 
folds 

# Getting the training/testing samples based on the generated 
training/testing indices by Kfold 

for train index, test index in kf: 
cnn model = create cnn model arch() 
training samples X = training samples[train index] # Getting the 
training input variables 
training samples Y = training samples target[train index] 4 Getting 
the training output/label variable 
validation samples X = training samples[test index] # Getting the 








validation input variables 


validation samples Y = training samples target[test index] # Getting 





the validation output/label variabl 
fold number += 1 


E 884 ———————————————————— 


附录 A 实现 鱼 类 识别 


print('Fold number {} out of {}'.format(fold_number, nfolds) ) 
callbacks = [ 
EarlyStopping (monitor='val_loss', patience-3, verbose=0), 





] 
# Fitting the CNN model giving the defined settings 





cnn model.fit(training samples X, training samples Y, 
batch size-batch size, 
nb epoch-num epochs, 
shuffle-True, verbose-2, validation data- (validation samples X, 





validation samples Y), 
callbacks-callbacks) 
f measuring the generalization ability of the trained model based on 





the validation set 
predictions of validation samples - 
cnn model.predict(validation samples X.astype('float32'), 
batch size-batch size, 
verbose-2) 
current model score - log loss(Y valid, 





predictions of validation samples) 
print('Current model score log loss: ', current model score) 











sum score += current model score*len(test index) 
Store valid predictions 





for i in range(len(test index)): 





yfull train[test index[i]] = predictions of validation samples[i] 
Store the trained model 
trained models.append(cnn model) 
# incrementing the sum score value by the current model calculated score 











overall score = sum score/len(training samples) 





print("Log loss train independent avg: ", overall score) 
#Reporting the model loss at this stage 
overall settings output string = 'loss ' + str(overall score) + ' folds ' 
+ str(nfolds) + '_ep_' + str(num epochs) 
return overall_settings_output_string, trained_models 
#Testing how well the model is trained 
def 
test generality crossValidation over test set(overall settings output strin 





g, cnn models): 

batch size = 16 # in each iteration, we consider 32 training examples at 
once 

fold number = 0 # fold iterator 

number of folds = len(cnn models) # Creating number of folds based on the 
value used in the training step 

yfull test = [] # variable to hold overall predictions for the test set 
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#executing the actual cross validation test process over the test set 





for j in range (number of folds): 


model - cnn models[j] 
fold number += 1 
print('Fold number {} out of (j'.format(fold number, 


number of folds)) 

Loading and normalizing testing samples 

testing samples, testing samples id - 

load normalize testing samples() 

Calling the current model over the current test fold 
test prediction = model.predict(testing samples, 














batch size-batch size, verbose-2) 
yfull test.append(test prediction) 





test result = merge several folds mean(yfull test, number of folds) 





overall settings output string = 'loss ' + overall settings output string 


+ ' folds ' + str(number of folds) 
format results for types(test result, testing samples id, 
overall settings output string) 
# Start the model training and testing 


if name == ' main ': 





info string, models = create model with kfold cross validation() 








test generality crossValidation over test set(info string, models) 


— l 366 | 一 


